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译 痢 序 


很 多 人 都 认为 网 络 运 维 是 个 苗 差事 。 的 确 ， 干 这 行 不 仅 要 有 广 而 全 的 专 
业 知 识 沉 深 ， 还 需要 在 面 对 各 种 突 及 情况 时 做 到 有 条 不 率 地 沉着 应 对 。 
如 此 ， 经 验 就 成 为 了 相关 从 业 人 员 的 制胜 法 宝 。 


当 我 第 一 次 翻 开 这 本 书 时 ， 我 异常 兴奋 。 这 本 书 可 以 说 是 实 实在 在 的 经 
验 谈 ， 虽 说 这 些 经 验 并 非 十 分 “前 沿 * 和 “先进 *"， 但 这 些 技术 在 实际 生产 
环境 非常 接地 气 。 此 类 经 验 谈 未 曾 在 国内 成 书 出 版 ， 只 是 只 言 片 语 地 零 
散 分 布 在 网 上 。 可 以 说 ， 这 本 书 的 出 版 不 仅 让 读者 看 到 了 作者 多 年 经 验 
40 
实践 。 


从 编排 上 看 ， 我 不 得 不 佩服 原 书 作 者 和 编辑 的 巧妙 心思 。 这 本 书 不 但 能 
够 围绕 实际 运 维 的 需要 ， 还 能 从 设备 / 环境 搭建 、 性 能 优化 、 高 效 管理 
以 及 对 未 来 的 展望 ， 成 体系 地 归纳 出 重点 知识 。 书 中 丰富 的 各 类 技 巧 
及 和 条例， 不 仅 对 于 初学 者 及 有 经 验 的 网 络 架 构 师 难能可贵 ， 而 且 也 会 给 
网 络 架构 师 带 来 英 大 的 局 发。 


本 书 还 就 架构 设计 方面 ， 针 对 常见 流程 提出 了 独到 的 见解 。 例 如 本 书 坚 
持 使 用 开源 软件 ， 以 方便 管理 为 主旨 来 定义 工具 ， 以 完善 的 故障 保护 机 
制 来 应 对 各 种 灾害 ， 重 视 性 能 与 成 本 之 间 的 平衡 等 。 因 此 ， 本 书 不 仅 单 
2 
介 值 观 。 


在 本 书 的 翻译 中 ， 我 得 到 了 很 多 朋友 ， 特 别 是 图 灵 编 辑 的 帮助 和 支持 ， 
在 此 表示 深 深 致谢 。 但 限于 我 自 喘 能 力 有 限 ， 书 中 难免 有 错误 及 下 漏 ， 
如 果 读 者 发 现 了 什么 问题 ， 或 者 有 什么 见解 、 技 术 想 要 交流 ， 欢 迎 访 问 
图 灵 社 区 搜索 本 书 的 名 称 ， 提 交 勘 误 ， 或 者 发 E- 

mail (Philip.Z@foxmail.com) 与 我 联系 。 


张 多 
2014 年 于 西安 


当今 社会 ， 社 交 软 件 、 博 客 、 购 物 网 站 等 丰富 多 彩 的 网 络 服务 充斥 着 我 
们 的 生活 ，E-Mail 和 聊天 工具 更 是 大 家 第 用 的 交流 手段 。 可 以 说 ， 互 联 
网 已 经 成 为 了 我 们 生活 中 不 可 缺少 的 一 部 分 。 笔 者 也 不 例外 ， 每 天 都 在 
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然而 ， 从 笔者 的 角度 来 看 ， 与 享受 网 络 服务 的 终端 “用 户 ” 相 对 应 的 就 是 
服务 的 “提供 者 ”。 没 错 ， 笔 者 的 工作 就 是 网 络 、 服 务 器 的 搭建 和 运营 管 
J 


10 年 前 ， 说 到 网 络 和 服务 器 ， 第 一 反应 就 是 这 是 价格 昂贵 的 设备 ， 应 
该 不 是 一 个 能 够 简单 进入 的 领域 。 但 是 近 些 年 来 ， 随 着 在 PC 机 上 运行 
的 Linux、FreeBSD 等 类 UNIX 操作 系统 的 普及 ， 以 及 硬件 价格 的 降 

低 、 网 络 的 普及 ， 也 让 大 家 纷纷 在 家 中 建 起 了 服务 器 。 


这 样 的 情况 有 助 于 我 们 随时 获取 基础 设施 的 相关 信息 。 特 别 是 在 部 署 方 
式 和 Apache 守护 程序 的 配置 等 操作 方法 方面 ， 近 些 年 的 进步 可 谓 惊 
人 。 对 基础 设施 的 新 手工 程 师 来 说 ， 这 真是 个 方便 的 时 代 。 


然而 男 一 方面 ， 在 高 效 运 营 管理 的 实现 、 服 务 的 见 余 及 可 扩展 等 拉 术 上 
的 信息 和 技巧 还 远 远 不 够 。 


束 笔 者 而 言 ， 从 搭建 和 运营 数 合 、 数 十 台 乃 至 数 百 台 的 服务 器 系统 来 
说 ， 其 中 最 大 的 困难 束 是 缺少 见 余 和 可 扩展 方面 的 信息 。 当 时 笔者 还 没 
有 元 余 和 可 扩展 的 相关 知识 和 经 验 ， 完 全 不 知 该 如 何 下 手 。 而 且 想 到 为 
人 
To 


现在 回想 起 来 ， 当 时 的 想法 是 不 对 的 。 事 实 上 ， 运 用 开源 软件 和 常用 的 
设备 ， 即 可 搭建 兼 有 元 余 性 和 可 扩展 性 的 系统 。 但 我 们 回 过 头 来 看 看 ， 
当时 迟 迟 无 法 下 手 的 原因 完 竟 是 什么 呢 ? 难道 不 是 单纯 地 因为 “不 知道 
有 这 个 东西 关 不 知道 可 以 这 样 2 四 ? 


而 这 就 是 本 书 的 写作 动机 。 也 就 是 说 ， 本 书 的 写作 目标 就 是 为 读者 搭建 


兼 有 具 见 余 和 可 扩展 性 的 基础 设施 提供 启示 。 


本 书 的 内 容 是 使 用 开源 软件 的 Hatena 公司 和 Klab 公司 的 工程 师 团队 的 
经 验 总 结 ， 与 实际 运作 的 系统 密切 相关 。 这 些 信息 都 具有 实践 音义， 而 
非 念 令 其 谈 。 系 统 是 一 个 体系 ， 是 由 各 个 要 素 相 关联 构成 的 。 本 书 中 不 
仅 对 每 个 要 系 的 拉 术 都 进行 了 详细 的 说 明 ， 还 重点 介绍 了 各 个 技术 要 素 
之 间 的 关联 。 但 是 本 书 并 不 是 一 本 技术 手册 ， 所 以 并 没有 逐步 对 安装 顺 
序 进行 说 明 ， 而 且 也 不 是 说 按照 书 中 的 命令 去 运行 就 一 定 能 得 到 什么 。 
本 书记 述 的 是 笔者 在 实际 的 开发 现场 所 进行 的 思考 、 所 面临 的 问题 ， 以 
及 为 解决 问题 所 做 的 努力 和 成 果 。 和 希望 在 读者 接 下 来 设计 、 搭 建 和 运营 
基础 设施 时 ， 本 书 的 内 容 能 够 为 你 提供 参考 。 


作者 代表 三 濑 正明 


本 书 概述 
本 书 由 6 章 组 成 。 
第 1 章 服务 器 及 基础 设施 搭建 入 门 ..…. 元 余 及 负载 分 流 的 基础 


第 2 章 ”优化 服务 器 及 基础 设施 的 拓扑 结构 .…... 见 余 、 负 载 分 流 、 噩 
性 能 的 实现 


第 3 章 ”进一步 完善 不 间断 的 基础 设施 ..…...DNS 服务 器 、 存 储 服务 


1 ~ 3 章 的 主题 是 如 何 设计 兼 具 宛 余 性 以 及 可 扩展 性 的 基础 设施 。 
每 一 章 都 是 相互 独立 的 ， 但 是 在 “从 较 小 的 系统 出 发 来 拱 建 基础 设施 "这 
一 大 流程 中 ， 它 们 又 是 相互 关联 的 。 建 议 首先 通读 1 ~ 3 章 以 把 握 整 个 
流程 ， 然 后 再 回 过 头 来 细 读 感 兴趣 的 章节 。 


第 4 章 性能 优化 、 调 整 ..….Linux 单个 主机 、Apache、MySQL 


第 4 章 的 主题 是 提升 性 能 。 


通过 服务 器 的 负载 均衡 来 提升 整个 系统 的 性 能 。 在 这 一 过 程 中 ， 单 个 服 
务 器 的 性 能 优化 是 不 可 或 缺 的 。 第 4 章 将 针对 单个 服务 器 的 性 能 可 能 遭 
遇 的 瓶 贷 ， 对 其 界定 及 优化 方法 进行 介绍 。 


第 5 章 高效 运行 ...... 确 保 服务 的 稳定 提供 

第 5 章 的 主题 是 监控 和 管理 。 

随 着 服务 器 数量 的 增加 ， 运 营 成 本 也 不 断 加 大 ， 那 么 运营 成 本 将 会 成 为 
瓶颈 ， 进 而 就 可 能 导致 不 能 像 期 望 中 那样 扩展 基础 设施 了 。 换 名 话说， 
通过 各 种 办 法 在 最 大 程度 上 提高 运行 效率 ， 是 搭建 具备 可 扩展 性 的 基础 
设施 的 关键 。 第 5 章 将 以 笔者 身边 的 生产 环境 为 例 ， 来 说 明 如 何 提升 设 
备 的 运行 效率 。 


第 6 章 服务 后 合 ..….. 自律 的 基础 设施 、 稳 健 的 系统 
第 6 章 将 对 Hatena 公司 与 KLab 公司 的 DSAS 实际 运作 的 网 络 和 服务 器 
基础 设施 进行 介绍 。 


笔者 作为 基础 设施 团队 的 领 凑 人物， 除了 一 些 技术 性 的 内 容 之 外 ， 还 加 
入 了 前 面 章 节 中 未 能 介绍 的 细节 、 至 今 为 止 的 发 展 历程 ， 以 及 自己 作为 
基础 设施 工程 师 的 动机 和 心理 等 非常 有 趣 的 内 容 ， 可 读 性 很 强 。 


1.1 元 余 的 基 


1.2 实现 Web 服务 器 的 元 余 .……. DNS 轮 询 


1.3 实现 Web 服务 器 的 元 余 .……. 通过 IPVS 进 和 


1.4 路 由 占 及 负载 均衡 的 见 余 


2.1 引入 反问 代理 


(Hatena) 


2.2 增设 缓存 服务 器 


2.3 MySQL 同步 .……… 发 生 故 障 时 的 快速 性 
2.4 MySQL 的 Slave + 内 部 负载 均衡 器 的 灵活 应 用 示例 ? 
量 高 速 的 存储 服务 器 
3.1 DNS 服务 器 的 元 余 
3.2 存储 服务 器 的 元 余 .……… 使 用 DRBD 实现 镜像 
3.3 网 络 的 元 余 .…… 驱 动 绑 定 、RSTP 


3.4 引入 VLAN...... 使 网 络 更 加 横 川 和 哉 (KLab) 


(Hatena) 


广 濑 正明 
a 


广 濑 正明 
5.6 远程 维护 胜 见 祝 己 


5.7 Web 服务 器 的 日 志 处 理 性 
rotatelogs 胜 见 禧 已 
田中 慎 司 


1 《WEB+DB PRESS》 (Vol.22) 特辑 2“MySQL 配置 指导 >”、 第 2 章 “ 生 产 环境 中 的 同步 详解 ” 


2 《WEB+DB PRESS》 (Vol.38) 连载 “ 快 看 ! 这 是 高 手 的 诀 穿 ? 可 扩展 的 Web 系统 工房 “第 1 
回 : 各 种 各 样 的 负载 均衡 ” 


3 «5 分 钟 完 成 MySQL 的 内 存 关系 调整 ! ”URL http://dsas.blog.klab.org/archives/50860867.html 


14 0 PRESS》 (Vol.40) 连载 “ 快 看 ! 这 是 高 手 的 诀窍 ?可 扩展 的 Web 系统 工房 “第 3 
2 监 空 和 不 和 


du 


加 


By \ 五 
术语 整理 
从 网 络 到 应 用 程序 ， 本 书 内 容 涉及 范围 较 广 ， 其 中 出 现 了 较 多 的 术语 。 
首先 将 常用 的 术语 整理 如 下 。 
AP 服务 器 (Application Server ) 
应 用 服务 器 ， 即 能 返回 动态 内 容 的 服务 器 。 


比如 Apache 十 mod_perl 运行 的 Web 服务 器 及 Tomcat 等 应 用 程序 运行 
的 服务 器 。 


CDN (Content Delivery Network， 内 容 分 发 网 络 ) 

发 送 内 容 的 网 络 系统 。 用 于 提高 信息 发 送 的 性 能 和 实用 性 。 

以 Akamai 等 商用 服务 为 例 ， 其 结构 上 的 特点 是 : 从 散布 在 全 世界 的 组 
存 服务 器 中 ， 选 择 离 客户 端 较 近 的 服务 器 来 发 送信 息 ， 据 此 实现 性 能 的 


提升 


IPVS (IP Virtual Server，IP 虚拟 服务 器 ) 


LVS (Linux Virtual Server) 的 成 果 之 一 ， 实 现 了 负载 均衡 器 中 不 可 或 
缺 的 负载 分 流 功 能 。 


本 参考 “LVS” 
LVS (Linux Virtual Server，Linux 虚拟 服务 器 ) 


Linux 中 由 在 搭建 具有 可 扩展 性 的 、 实 用 性 较 高 的 系统 的 项 目 。 项 目 成 
果 之 一 即 为 Linux 负载 分 流 所 设计 的 IPVS。 


原先 为 项 目 名 ， 现 通常 作为 “基于 Linux 的 负载 均衡 器 ”的 意思 使 用 。 


URL http:/www .linuxvirtualserver.org/ 


NIC (Network Interface Card， 网 络 接口 卡 ， 简 称 网 卡 ) 


原本 是 指 退 加 网 络 功能 所 需 的 扩展 卡 。 有 时 也 作为 网 络 接口 的 总 称 使 
用 ， 不 区 分 是 扩展 卡 还 是 板 载 。 


同时 也 可 称 为 LAN 卡 、 网 络 适 配器 等 。 


Netfilter 
Linux 内 核 中 操作 网 络 数据 包 所 需 的 协议 框架 。 


执行 分 组 过 滤 的 iptables 以 及 实现 负载 均衡 的 IPVS 也 应 用 了 本 Netfilter 
协议 。 


OSI 参考 模型 
用 来 描述 数据 通信 网 络 层 的 模型 ， 分 为 七 层 〈Layer) 框架 。 
以 下 为 常见 的 层 。 

。 第 七 层 〈 应 用 层 ) : HTTP 及 SMT 等 通信 协议 

。 第 四 层 〈 传 输 层 ) : TCP 及 UDP 

。 第 三 层 〈 网 络 层 ) : IP、ARP 及 ICMP 

。 第 二 层 〈 数 据 链 路 层 ) : 以 太 网 等 


另外 ， 像 工 2 交换 机 ”这 样 ， 有 时 也 将 “第 n 层 ” 记 为 “Ln”。 顺 市 一 提 ， 
OSI 是 Open Systems Interconnection 的 缩写 。 


| 


VIP (Virtual IP Address， 虚 拟 IP 地 址 ) 
不 同 于 物理 性 质 的 服务 器 及 网 卡 ， 该 IP 地 址 会 被 浮动 地 分 配 某 项 服务 


例如 对 于 负载 均衡 器 ， 接 收 客户 端 请 求 的 IP 地 址 就 称 为 VIP。 这 是 因 
为 该 卫 地 址 对 HTTP 等 服务 进行 了 关联 ， 另 外 在 元 余 的 Active/Backup 
架构 中 ， 唯 一 的 Master， 即 Active 的 负载 均衡 器 也 继承 了 该 IP 的 行 


虚拟 地 址 通常 也 称 为 虚拟 卫 地 址 。 

可 用 性 (Availability) 

系统 停止 的 可 能 性 。 在 可 用 性 较 高 的 情况 下 ， 通 常 该 服务 不 会 随意 终 
止 。 男 外 ， 根 据 其 字面 意思 ， 也 可 理解 为 “运行 效率 高 "或 者 “1 年 中 的 运 
作 时 间 长 ”等 。 

内 容 (Contents) 


0 内 容 是 指 返回 给 用 户 浏览 器 的 HTML 或 图 片 等 
数据 。 


静态 内 容 是 指 不 会 发 生变 化 的 内 容 ， 例 如 HIML 或 图 片 等 ， 动 态 内 容 
是 指 会 变化 的 数据 ， 根 据 请 求 的 不 同 所 返回 的 内 容 也 不 同 。 在 某 些 情况 
下 ， 动 态 内 容 并 非 单纯 指数 据 本 有 身 ， 而 是 指 返 回 动态 数据 的 服务 器 站 点 
的 程序 。 

服务 器 集群 (Server Farm ) 


很 多 服务 器 集合 而 成 的 基础 系统 。 根 据 上 下 文 环境 ， 有 时 也 作为 硬件 设 
施 的 意思 使 用 ， 与 数据 中 心 的 意思 相同 。 


在 一 些 新 闻 中 ， 有 时 也 会 形象 地 称 为 “服务 占 农 场 ”。 
见 余 (Redundancy) 


将 系统 的 构成 要 素 配 置 多 个 ， 这 样 即使 其 中 一 个 因为 发 生 故 障 而 停止 运 
作 ， 也 可 以 立即 切换 到 备用 设备 以 使 服务 不 停止。 


RAID (Redundant Arrays of Inexpensive Disks) 是 元 余 的 典型 例子 。 


交换 集线器 (Switching Hub ) 


目前 市 场 上 几乎 所 有 的 集线器 都 是 带 有 桥接 功能 的 交换 集线器 ， 而 
非 “ 中 继 集 线 器 ”(Repeater Hub) 。 


有 时 也 称 为 L2 交换 机 ， 或 者 简单 地 称 为 交换 机 。 

可 扩展 性 〈Scalability ) 

的 增多 以 及 规模 的 扩大 ， 在 某 种 程度 上 扩展 系统 以 加 强 应 对 的 
能 力 。 


横向 扩展 〈Scale-out) 

通过 将 内 容 分 散 到 多 台 服 务 器 并 行 处 理 ， 来 提升 系统 整体 的 性 能 。 
例如 使 负载 均衡 器 下 配置 的 Web 服务 器 的 数量 翻 倍 等 。 

纵向 扩展 (Scale-up) 

通过 提升 单个 服务 器 的 性 能 ， 来 提升 系统 整体 的 性 能 。 

例如 增加 服务 器 内 存 、 换 代 到 更 高 性 能 的 服务 器 等 。 

准 生 产 环境 (Staging Environment) 

在 投入 真正 的 服务 前 ， 进 行 最 终 的 动作 确认 的 环境 〈” 可 参考 “生产 环 
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境 ”) 


否 吐 量 (Throughput) 
在 网 络 等 数据 通信 环境 中 使 用 ， 代 表单 位 时 间 的 传送 量 〈( -, 可 参考 “ 延 


2 


例如 ， 虽 然 同样 是 车 ， 但 和 Fl 赛车 相 比 ， 大 巴 车 可 乘坐 的 人 较 多 ， 
此 大 巴 车 的 “吞吐 量 ? 就 较 大 。 


单 点 故障 〈Single Point of Failure ) 


若 此 处 出 现 问题 ， 就 会 令 整 个 系统 停止 ， 即 系统 的 要 害 。 也 叫 作 
SPO (Single Point of Failure) 。 


例如 ， 即 使 服务 器 由 RAID 和 多 路 复 用 的 电源 构成 ， 如 果 全 部 服务 器 部 
连接 在 同一 全 交换 集 线 大 上， 从 整个 系统 来 看 这 人 台 交 换 集线器 即 为 单 点 


故障 。 
数据 中 心 (Data Center ) 
为 了 容纳 服务 器 设备 而 创建 的 专用 设备 的 名 称 。 


安装 有 空调 ， 并 配备 停电 、 火 灾 、 地 震 等 问题 的 应 急 措 施 ， 以 保证 每 时 
每 刻 都 能 够 正 常 提供 服务 。 


守护 程序 (Daemon) 

在 后 台 下 持续 运行 并 发 挥 菜 种 作用 的 程序 。 

例如 httpd 和 bind 等 。 

网 段 (Network Segment ) 

广播 数据 包 所 及 范围 内 的 网 络 段 。 虽 和 “冲突 域 ”(Colision Domain) 意 
思 相 近 ， 但 因为 很 多 情况 下 并 无 冲突 发 生 ， 所 以 很 难 再 说 “Network 


Segment 一 Colision Domain” 了 。 


网 络 引 导 (Network Boot ) 
通过 网 络 获取 局 动 时 必要 的 引导 加 载 程序 和 内 核 映 像 并 局 动 。 


5.5 节 介绍 的 PXE 是 实现 网 络 引 导 的 方式 之 一 。 


分 组 (Packet) 


通常 指 IP 中 数据 的 最 小 计量 单位 。 有 时 也 叫 IP 分 组 、IP 包 、 数 据 包 


站 


和 人生 
二 于 


故障 转移 (Failover) 


在 见 余 系统 中 ， 在 活动 节点 (Active Node) (服务 区 或 者 网 络 设备 ) 停 
止 时 ， 目 动 通 过 某 种 行为 切换 到 备用 节点 〈Backup Node) 。 


顺带 一 提 ， 如 果 不 是 自动 切换 ， 而 是 手动 切换 ， 通 常 叫 作 Switch 
over 〈 手 动 切换 式 故障 转移 ) 。 


故障 恢复 (Failback ) 

从 活动 节点 停止 进行 故障 转移 的 状态 ， 恢 复 到 原始 的 正常 状态 。 

帧 (Frame) 

以 太 网 中 数据 的 最 小 计量 单位 。 也 称 为 以 太 网 帧 (Ethernet Frame)。 
被 阻塞 (Blocked) 


为 了 等 待 读 出 或 写 入 处 理 的 结束 而 无 法 进行 其 他 处 理 的 状态 ， 称 为 “ 因 
等 待 VO 而 被 阻塞 ”。 


ee IO 和 网 络 VO 使 用 的 术语 ， 在 输入 输出 处 理 时 一 般 也 
会 用 到 。 


生产 环境 (Production Environment) 

服务 的 运行 环境 〈( -, 参考 “ 准 生 产 环境 ”) 。 

健康 检查 (Health Check ) 

确认 检查 对 象 的 状态 是 人 否 正 第 。 

例如 确认 Web 服务 器 是 否 能 够 啊 应 ping、 是 否 能 连接 TCP 的 80 端 

口 、 是 人 否 能 应 答 HTTP 等。 通常 情况 下 ， 寿 健康 检查 失败 ， 融 会 问 管 理 
者 发 出 监控 对 象 故 障 的 警示 信息 。 

有 时 也 称 为 "服务 存活 状态 的 监控 ”。 

负载 (Load) 

“负载 ?的 种 类 很 多 ， 大 致 可 分 为 "CPU 负载 "? 和 “1/O 负载 ”。 


衡量 负载 情况 的 指标 通常 是 load average (平均 负载 这 样 的 数值 。 此 
外 vmstat 及 top 等 命令 也 可 衡量 负载 。 具 体 请 参见 4.1 市 。 


瓶颈 〈Bottleneck ) 


阻碍 系统 整体 性 能 提升 的 地 方 。 
内 存 文件 系统 (Memory File System ) 
并 非 像 磁盘 那样 永久 性 的 存储 装置 ， 而 是 在 内 存 中 建立 的 文件 系统 。 


虽说 使 用 起 来 类 似 磁 盘 上 的 文件 系统 ， 但 由 于 存储 在 内 存 中 ， 因 此 一 旦 
重启 数据 束 会 丢失 。 但 其 拥有 读 写 速度 快 等 优点 。 


轮 询 (Round Robin) 

对 多 台 节 点 有 序 地 派发 请 求 。 

包括 DNS 轮 询 和 负载 均衡 算法 等 。 前 者 是 指 将 多 个 A 记录 (IP 地 址 ) 
分 配 到 一 个 FQDN (完全 限定 域名 ，Fully Qualified Domain Name) 上 
以 分 散 请 求 ， 后 者 是 指 将 请 求 按 顺 序 分 散 到 多 合 服务 器 上 。 

资源 (Resource) 

指 CPU、 内存、 磁盘 等 服务 器 的 硬件 资源 。 

通常 说 “资源 被 占 据 ” 就 是 指 CPU 使 用 率 过 高 。 

延迟 〈Latency ) 


在 网 络 等 数据 通信 和 领域 里 使 用 时 ， 通 常 指数 据 投递 完成 所 花费 的 时 间 
(一 参考 “ 否 吐 量 ”) 。 


比如 说 ， 同 样 是 车 ，F1 赛车 就 比 大 巴 车 更 快速 ， 延 迟 更 小 。 

层 (Layer) 

-… 参考 “OSI 参考 模型 ”。 

负载 均衡 器 (Load Balancer) 

位 于 客户 端 与 服务 器 之 间 ， 将 客户 端的 请 求 分 散 到 后 端的 多 台 服 务 器 。 
换 名 话说， 就 是 将 多 台 服 务 器 合并 为 一 台 高 性 能 的 虚拟 服务 器 的 装置 。 


第 1 草 服务 右 及 基础 设施 挫 建 入 
站 一 一 见 余 及 负载 分 法 的 基础 


1.1 宛 余 的 基础 


1.1.1 元 余 概述 

玫 余 〈Redundancy) 是 指 ， 在 故障 发 生 时 ， 使 用 事先 准备 好 的 备份 设 
备 ， 使 系统 相关 功能 得 以 继续 提供 服务 。 比 如 工厂 或 者 医院 为 了 防止 停 
电 ， 一 般 都 准备 有 发 电 装 置 ; 而 公共 交通 工具 为 了 以 防 万 一 ， 也 配备 有 
多 个 制 动 系统 以 确保 安全 。 

提供 Web 服务 的 网 络 与 服务 器 系统 也 不 例外 ， 为 了 确保 服务 的 可 用 

性 ， 对 系统 进行 见 余 处 理 的 情况 并 不 少见 。 本 节 将 讲解 实现 系统 见 余 的 
基础 知识 ， 然 后 再 介绍 个 简单 的 例子 。 

1.1.2 ”元 余 的 本 质 

系统 的 元 余 可 以 通过 以 下 步骤 实现 : 

@ 设想 可 能 发 生 的 故障 

@ 根据 故障 准备 备份 设备 

全 部 署 故 障 发 生 时 切换 到 备份 设备 的 工作 机 制 

下 面 按照 以 上 各 个 步骤 ， 对 操作 流程 进行 简单 的 介绍 。 

@ 设想 可 能 发 生 的 故障 


元 余 的 第 一 步 就 是 设想 故障 及 生 时 的 情况 。 请 参考 图 1.1.1 中 简单 的 系 
统 拓扑 结构 ， 来 考虑 该 图 中 可 能 会 导致 系 统 故 障 的 原因 。 


首先 ， 列 出 图 1.1.1 所 示 的 系统 可 能 太 生 的 故障 。 


。 路 由 器 故障 所 造成 的 服务 停止 
。 服务 器 故障 所 造成 的 服务 停止 


Internet ( 1SP 


图 1.1.1 最 简易 的 服务 器 系统 

在 图 1.1.1 中 ， 以 上 任何 一 种 情况 发 生 ， 都 会 造成 服务 停止。 

@ 预先 准备 好 备份 设备 

接 下 来 ， 为 了 应 对 故障 而 预先 准备 备份 设备 。 在 图 1.1.1 的 拓扑 结构 中 


增设 一 套 备 份 设 备 ， 得 到 的 拓扑 结构 如 图 1.1.2 所 示 。 人 至 此 ， 备 份 路 由 
器 和 备份 Web 服务 器 还 疝 未 连接 到 网 络 。 


Internet ( ISP) 


图 1.1.2 增设 备份 设备 


@ 部 署 工作 机 制 .….…. 当 故 障 发 生 时 ， 切 换 到 备份 设备 


最 后 ， 部 署 工 作 机 制 。 部 署 工 作 机 制 通 常 是 指 ， 针 对 以 上 人 四 步骤 中 
可 能 发 生 的 故障 节点 工 及 故障 属性 ， 考 虑 通过 在 硬件 层面 部 署 怎 样 的 拓 
扑 才能 解决 这 些 故障 。 

0 [MINGC194] 的 第 112 页 中 ， 关 于 计算 机 网 络 的 名 词 “node” 对 应 的 翻 


我 们 这 里 将 “node” 视 为 有 计算 能 力 的 单元 ， 就 像 人 体 的 关节 一 样 ， 因 此 译 
为 “节点 ”。 译 者 注 


下 面 以 步骤 @@ 中 所 设想 的 路 由 器 故障 和 Web 服务 器 故障 为 例 ， 对 基本 
工作 机 制 的 部 署 和 元 余 中 用 到 的 基本 术语 进行 讲解 。 


1.1.3 ”应 对 路 由 器 故障 的 情况 
在 图 1.1.1 的 状态 下 ， 一 旦 路 由 器 发 生 故 障 ， 服 务 就 会 停止 。 在 图 1.1.2 


中 ， 通 过 增设 备份 设备 ， 即 便 路 由 器 发 生 故 障 ， 也 能 像 图 1.1.3 中 那样 
仅 通 过 切换 连接 线 就 可 以 方便 地 解决 故障 ， 从 而 恢复 服务 。 


Internet ( ISP ) 


图 1.1.3 应 对 路 由 器 故障 的 情况 
冷 备 份 
如 图 1.1.2 和 图 1.1.3 所 示 ， 我 们 平常 并 不 会 用 到 备份 设备 ， 只 有 在 故障 


发 生 时 才 需 要 连接 到 备份 设备 ， 该 工作 机 制 称 为 “ 冷 备份 CCold 
Standby) 。 


在 此 需要 关注 的 重点 是 : 现 用 设备 与 备份 设备 的 相关 设 定 需 要 完全 一 
0 0 


在 使 用 路 由 器 等 网 络 设备 的 情况 下 ， 因 为 不 用 在 生产 环境 中 频 楷 地 修改 
设 定 “切换 连接 ) ， 而 且 数据 也 并 非 一 定 要 长 期 保存 ， 所 以 使 用 冷 备 份 
不 失 为 一 个 现实 可 行 的 方法 。 


1.1.4 应 对 Web 服务 器 故障 的 情况 
下 面 考虑 在 Web 服务 器 发 生 故 障 的 时 候 要 如 何 应 对 。 当 Web 服务 器 发 


生 故 障 时 ， 也 可 以 采取 与 上 述 路 由 器 发 生 故 障 时 同样 的 思路 ， 即 参照 图 
1.1.4 切换 到 备份 设备 ， 但 此 处 仍 存在 一 个 问题 。 


Internet ( ISP ) 


图 1.1.4 应 对 在 Web 服务 器 故障 的 情况 
热 备 份 


综 上 上 所 述 ， 在 元 余 系 统 中 “确保 现 用 设备 始终 与 备份 设备 的 架构 保持 同 
样 的 状态 ”是 非常 重要 的 。 


在 Web 服务 需 中 ， 面 对 每 天 都 要 更 新 的 网 站 内 容 ， 应 用 软件 或 操作 系 
统 的 版 本 更 新 等 也 在 所 难免 。 为 了 能 局 用 备份 设备 ， 束 不 能 停止 冷 备份 
设备 在 生产 环境 中 的 各 种 更 新 。 仅 仅 为 了 在 发 生 故 障 时 能 局 用 备份 设 
备 ， 而 去 费时 费力 地 同步 更 新 站 点 内容 或 应 用 软件 版 本 ， 这 确实 有 些 宽 


力 不 讨 好 。 


有 个 好 办 法 可 以 解决 该 问题 ， 即 让 Web 服务 器 的 备份 设备 一 直 保 持 接 
入 电源 及 Internet 的 状态 。 在 现 用 设备 内 容 更 新 时 ， 备 份 设备 也 同步 更 
新 内 容 以 确保 与 现 用 设备 的 内 容 一 致 ， 如 图 1.1.5 所 示 。 


Internet ( ISP ) 


网 站 内 容 的 更 新 
应 用 软件 的 版 本 升级 等 


图 1.1.5 热 备份 模式 的 使 用 

像 这 样 让 两 台 服 务 器 同时 运行 ， 并 保持 同样 状态 的 使 用 模式 称 为 “ 热 备 
份 ”(Hot Standby) 。 在 使 用 热 备份 的 情况 下 ， 由 于 不 会 物理 性 地 插 拔 
网 线 以 切换 连接 ， 发 生 故 障 也 不 会 宕 机 太 长 时 间 ， 所 以 就 让 及 时 切换 以 
解决 故障 成 为 了 可 能 。 

1.1.5 ”故障 转移 


当 现 用 设备 发 生 故 障 时 ， 系 统 会 自动 将 处 理 交 接 到 备份 设备 ， 该 操作 称 
为 故障 转移 (Failover) 。 


服务 器 的 故障 转移 主要 使 用 “虚拟 IP 地 址 ”(Virtual IP Address， 下 文 统 
称 VIP) 与 “IP 地 址 的 映射 〈 也 称 漂移 ) ”来 操作 。 


VIP 
图 1.1.6 是 使 用 VIP 搭建 Active/Backup 〈 现 用 设备 /备份 设备 ) 拓扑 结 


构 的 例子 。 图 中 的 Webl 是 现 用 设备 ， 目 前 VIP (10.0.0.1) 已 经 映射 到 
该 设备 使 用 的 IP 地 址 ， 通 过 连接 到 该 VIP 来 提供 Web 服务 。 


VIP ( 虚拟 IP 地 址 ) 
10.0.0.1 


Internet ( |SP ) 


图 1.1.6 利用 VIP 搭建 的 Active/Backup 拓扑 结构 


IP 地 址 的 映射 


如 图 1.1.7 所 示 ， 当 现 用 设备 发 生 故 障 时 ，VIP 就 会 映射 到 备份 设备 ， 
证 最 终 用 户 访问 到 备份 设备 Web2。 


I 
( 客户 机 ) 


备份 设备 
10.0.0.102 { Webz2 ) 


图 1.1.7 IP 地 址 的 映射 


1.1.6 ”检测 故障 .……. 健康 检查 

为 了 能 正常 进行 故障 转移 ， 需 要 在 现 用 设备 发 生 故 障 时 及 时 知晓 ， 该 操 
作 机 制 称 为 健康 检查 (Health Check) 。 健 康 检查 有 各 种 类 型 ， 可 以 根 
据 用 途 选 择 适合 的 方法 。 以 下 举 出 几 种 常用 的 方法 : 

。ICMP 监控 (第 三 层 ?) 

ICMP 监控 是 指 ， 检 查 由 ICMP3 所 发 出 的 echo 请 求 是 否 得 到 了 应 
答 。 由 于 这 是 最 基本 的 健康 检查 ， 因 此 无 法 得 知 Web 服务 
(Apache 等 ) 是 否 已 经 停止 

端口 监控 (第 四 层 ) 

端口 监控 是 指 ， 通 过 使 用 TCP 协议 尝试 连接 目标 主机 ， 检 查 目 标 
主机 是 否 能 被 连接 。 该 监控 可 以 得 知 Web 服务 是 否 还 在 正常 运 
行 ， 但 无 从 得 知 系 统 的 负载 状况 ， 也 无 从 得 知 错误 的 回报 情况 
服务 监控 (第 七 层 ) 

通过 实际 发 出 HITP 请 求 等 ， 检 查 该 请 求 是 否 得 到 了 应 答 。 虽 说 这 
种 方法 可 以 检查 所 有 的 异常 状况 ， 但 根据 情况 的 不 同 ， 可 能 会 加 重 
目标 主机 的 负载 


“这 里 的 层次 指 的 是 OSI 参考 模型 中 的 七 层 结构 ， 下 文 同 。 


译 者 注 


3 全 称 为 Internet Control Message Protocol， 是 异常 发 生 时 通知 错误 及 错误 信息 的 协议 。 


Web 服务 需 的 健康 检查 


在 本 章 的 开头 ， 我 们 设想 了 在 如 图 1.1.1 所 示 的 拓扑 结构 下 可 能 会 发 生 
的 两 种 故障 。 


其 中 一 种 是 “服务 器 故障 所 造成 的 服务 停止 "?， 为 了 检测 出 该 故障 ， 需 要 
使 用 上 文 介 绍 的 健康 检查 中 的 “服务 器 监控 >?。 为 什么 需要 使 用 服务 器 监 
控 呢 ? 因为 即使 服务 器 已 经 接 入 电源 ， 而 且 对 ICMP 测试 有 应 答 ， 我 们 
也 依然 不 能 断定 Web 服务 ‘(Apache 等 ) 在 正常 工作 。 为 了 检测 出 Web 
服务 器 的 故障 ， 需 要 党 试问 需 要 测试 的 目标 主机 实际 发 出 HTTP 请 求 ， 


并 确认 能 舍得 到 应 答 ， 这 是 相对 切实 有 效 的 方法 。 
路 由 器 的 健康 检查 


而 为 了 检测 出 “路 由 器 故障 所 造成 的 服务 集 止 ?， 殊 需要 使 用 ICMP 监控 
了 。 请 注意 这 里 并 不 是 对 路 由 器 进行 ICMP 监控 。 因 为 需要 确认 的 

是 “路 由 器 是 否 正 确 进行 了 分 组 〈Packet) 交换 ”， 因 此 从 网 络 上 的 其 他 
主机 来 监控 Web 服务 器 是 比较 好 的 选择 。 总 而 言 之 ， 只 要 确定 Web 服 
务 吉 与 mternet 能 够 进行 通信 就 可 以 了 。 


在 进行 健康 检查 时 ， 首 先 要 明确 目标 ， 这 一 点 最 为 重要 。 
1.1.7 搭建 Active/Backup 的 拓扑 结构 


下 面 就 实际 使 用 Shell 脚本 ， 尝 试 搭建 前 文中 如 图 1.1.6 所 示 的 拓扑 结 
构 。 这 里 Web1 与 Web2 已 经 分 配 了 只 属于 本 机 的 实际 IP 地 址 。 在 代码 
清单 1.1.1 中 ， 每 秒 对 VIP 发 出 一 次 ping 测试 ， 若 失败 ， 则 该 脚本 会 自 
行将 VIP 映射 到 可 用 主机 上 。 


首先 ， 请 在 Web1 中 执行 代码 清单 1.1.1 的 脚本 。 在 输出 字符 串 “fail 
over1 ”后 ， 该 脚本 执行 结束 ， 于 是 VIP 就 被 分 配 到 了 Web1。 接 下 来 ， 
请 在 Web2 中 执行 代码 清单 1.1.1 中 的 脚本 ， 这 次 每 秒 都 会 有 一 

行 “health ok! ”输出 。 


代码 清单 1.1.1 failover.sh 


#1/bin/sh 
VIP="16.0.0.1"” 
DEV="eth6" 


healthcheck() { 
ping -c 1 -w 1 $VIP >/dev/null 
return $? 


} 


ip takeover() { 

MAC= `ip link show $DEV | egrep -o '([8-9a-f]{2}:){5}[6-9a-f]{2}' 
head -n 1 | tr-d:. 

ip addr add $VIP/24 dev $DEV 


send arp $VIP $MAC 255.255.255.255 ffffffffffff <@ 


} 

while healthcheck; do 
echo "health ok!" 
sleep 1 

done 

echo "fail over!" 

ip_takeover 


※ 请 在 Debian/GNU Linux 4.0 (内 核 版 本 3.1) 以 上 的 版 本 中 执行 上 面 的 代码 。 

请 在 客户 端 对 VIP 执行 ping 指令 ， 并 且 在 执行 的 同时 尝试 关闭 

Web1。 一 旦 Webl 关闭 ，Web2 上 运行 的 脚本 的 健康 检查 就 会 失败 ， 从 
而 就 会 有 VIP 映射 的 操作 。 


如 图 1.1.8 所 示 ， 通 过 在 客户 端 执行 的 ping 指令 所 取得 的 结果 ， 能 够 确 
认 在 Webl 关闭 大 概 三 秒 钟 后 ，IP 地 址 的 映射 操作 已 经 完成 。 


图 1.1.8 故障 转移 的 动作 确认 


~$ ping 16.6.6.1 
PING 16.6.6.1 (pe 0.0. 0 56(84) bytes of data. 
bytes from ijcmp_seq=1 ttl1=64 time=2.46 ms 
bytes from ijcmp_seq=2 ttl1=64 time=1.86 ms 
bytes from ijcmp_seq=3 ttl]=64 time=5.66 ms 
bytes from ijcmp_seq=4 ttl=64 time=2.64 ms 
bytes from ijcmp_seq=5 ttl]=64 time=06.453 ms 
bytes from ijcmp_seq=6 ttl1=64 time=3.73 ms 
ijcmp_seq=7 ttl1=64 time=3.91 ms 
icmp_seq=8 tt1=64 time=6.418 ms < 在 这 里 关闭 Web1 
icmp_seq=11 tt1=64 time=3.26 ms < 已 经 完成 Web2 的 交接 
ijcmp_seq=12 tt1=64 time=1.69 ms 
ijcmp_seq=13 tt1=64 time=1.48 ms 


bytes from 
bytes from 
bytes from 
bytes from 
bytes from 


Seooeooeooeoceoceeoeeea 
Go © 
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IP 地 址 的 映射 操作 
“TP 地 址 的 映射 操作 ”并 不 是 单纯 的 “仅仅 更 换 IP 地 址 ”这 么 简单 。 为 了 


对 此 加 以 验证 ， 我 们 答 试 为 两 合 服务 器 分 配 同一 卫 地址 ， 从 其 他 设备 
持续 发 出 ping 指令 ， 并 交替 拔 插 LAN 网 线 。 可 以 发 现 ， 无 论 怎么 拔 插 
网 线 ， 通 过 ping 指令 也 只 能 确认 单 台 服 务 器 的 状态 。 


在 LAN 〈Ethernet， 以 太 网 ) 中 ， 并 不 是 通过 IP 地 址 ， 而 是 通过 被 固定 
分 配给 NIC (Network Interface Card， 网 络 适配器 ) 的 MAC (Media 
Access Control Address， 人 和 介质 访 问 控制 ) 地 址 来 完成 通信 的 。 在 给 其 他 
服务 器 发 送 分 组 的 时 候 ， 为 了 取得 MAC 地 址 ， 通 常 还 会 使 用 到 

ARP (Address Resolution Protocol， 地 址 解析 协议 ) 。 


ARP 协议 是 指 ， 通 过 指定 目标 设备 的 卫 地址， 查询 目标 设备 的 MAC 
地 址 。 但 由 于 每 次 通信 时 都 进行 查询 效率 会 非常 低 ， 因 此 通常 会 将 一 次 
取得 的 MAC 地 址 缓存 在 ARP 缓存 表 中 一 段 时 间 。 这 样 一 来 ， 即 便 别 
的 服务 器 被 分 配 到 了 相同 的 卫 地址 ， 在 ARP 缓存 表 更 新 之 前 ， 该 服务 
器 也 都 没有 办 法 完成 通信 。 所 以 在 分 配 卫 地 址 到 其 他 服务 器 时 ， 请 务 
必 注 意 更 新 ARP 缓存 表 。 


你 也 可 以 使 用 gratuitous ARP (GARP) 作为 获取 MAC 地 址 的 手段 。 
在 通常 没有 使 用 gratuitous ARP 的 情况 下 要 查询 MAC 地 址 时 ，ARP 请 
求 的 内 容 是 “请 告诉 我 这 个 IP 地 址 所 对 应 的 MAC 地 址 ”。 而 知 是 使 用 了 
gratuitous ARP，gratuitous ARP 则 会 通知 其 他 主机 : “这 是 我 的 卫 地 址 
和 MAC 地 址 。” 在 代码 清单 1.1.1 (failover.sh) 中 ， 在 @ 处 使 用 了 
send_arp 命令 ， 目 的 就 是 发 送出 gratuitous ARP 的 通知 消息 。 


1.1.8 ”还 想 更 有 效 地 使 用 服务 器 ...... 负 载 分 发 4 
4Load Balance， 文 中 在 强调 分 流 的 逻辑 动作 时 译 为 了 “负载 分 发 "?， 强 调 负载 的 拓扑 时 译 为 
了 “负载 均衡 "?， 强 调 降 低 负 载 时 译 为 了 “负载 分 流 ”"。 一 一 译 者 注 


在 上 述 的 Active/Backup 拓扑 结构 中 ， 仅 使 用 了 现 用 设备 进行 处 理 ， 而 
备份 设备 则 闲置 没 用 ， 仔 细 想 想 还 真是 可 惜 。 知 是 能 同时 使 用 两 台 服 务 
器 来 提供 服务 ， 那 网 站 整体 的 处 理性 能 应 该 会 翻 倍 吧 。 


使 用 多 台 服 务 器 分 发 处 理 ， 网 站 整体 的 可 扩展 性 也 会 随 之 提高 ， 这 样 的 
做 法 称 为 被 负载 分 发 〈Load Balance， 或 负载 均衡 ) 。 对 Web 服务 器 

做 出 负载 分 发 的 处 理 后 ， 将 来 即便 访问 量变 高 ， 目 前 的 服务 器 已 经 无 法 
满足 需求 ， 也 可 以 轻易 地 通过 增设 服务 器 来 满足 相应 的 需要 ， 而 并 不 需 
要 购买 高 性 能 服务 器 来 更 换 抒 现 有 的 无 法 满足 需求 的 设备 。 这 样 一 来 ， 

即便 是 旧 的 服务 器 也 可 以 页 献 余 热 ， 也 残 不 会 造成 浪费 。 


1.2 节 和 1.3 节 ， 将 介绍 Web 服务 器 负载 分 发 的 具体 搭建 实 
列 。 


1.2” 实现 Web 服务 器 的 宛 余 


1.2.1 DNS 轮 询 


DNS 轮 询 


DNS 轮 询 (DNS Round Robin) 是 指 ， 利 用 DNS 把 一 台 服 务 器 需要 处 
理 的 内 容 ， 分 配 到 多 台 服 务 器 来 进行 。 如 图 1.2.1 所 示 为 DNS 轮 询 的 行 
为 。 假 定 有 两 名 想 要 访问 www.example.cn 网 站 的 用 户 : A 先生 与 B 先 


生 ， 这 两 人 分 别 问 DNS 服务 器 询问 了 www.example.cn 网 站 的 IP 地 
址 ， 其 后 DNS 服务 器 分 别 回 两 人 解析 返回 了 “x.x.x.1” 与 “x.x.x.2” 两 个 不 
同 的 IP 地 址 ， 于 是 A 先生 便 通 过 x.x.x.1 访问 ，B 先生 则 通过 x.x.x.2 访 


想 要 访问 www.example.cn 
全 


问 。 


询问 DNS 道 : 
E 请 告诉 我 PY 
访问 x.Xx.x.1 伍 局 人 访问 x.x.x.2 
~ | 
3] C3 


DNS 回答 道 : 
是 X.X.X.2 


DNS 服务 器 
www.example.cn IN A x.x.x.1 
www.example.cn IN A x.x.x.2 


Web 服务 器 2 
We 


在 DNS 服务 器 中 ， 若 同一 个 域名 上 提交 了 多 个 记录 (Record) ， 则 每 


图 12.1 DNS 轮 询 


次 访问 时 DNS 服务 器 都 会 解析 到 不 同 的 IP 地 址 。 如 果 能 够 利用 好 这 一 
特性 ， 就 能 把 需要 处 理 的 内 容 分 配 到 多 合 服务 器 上 进行 处 理 。 这 是 相对 
比较 简易 的 负载 分 发 的 实现 方式 ， 但 还 存在 以 下 问题 : 


。 必须 取得 需要 轮 询 的 目标 服务 器 的 全 局 地 址 


为 了 实现 多 台 服 务 器 的 负载 分 及 ， 取 得 这 些 服 务 器 的 卫 地 址 是 利 
用 服务 (线路) 的 前 提 


。 并 不 一 定 能 实现 均等 的 分 发 


在 手机 站 点 中 ， 这 个 问题 被 逐渐 暴露 了 出 来 。 通 生来 目 手机 的 访问 
会 经 由 称 为 行业 网 关 的 代理 服务 器 ， 由 于 代理 服务 器 会 将 域名 解析 
的 结果 缓存 一 段 时 间 ， 所 以 经 由 该 代理 服务 器 的 访问 请 求 就 会 被 解 
析 到 同一 侣 服务 器 上 ， 因 此 束 可 能 无 法 实现 均等 分 配 需要 处 理 的 请 
求 ， 而 只 令 某 台 服 务 器 集中 处 理 。 另 外 在 PC 平台 上 的 网 页 浏览 器 

也 会 缓存 这 些 DNS 解析 的 结果 ， 这 就 令 均等 分 配 更 加 不 可 能 。 虽 

说 将 DNS 记录 的 TIL (Time To Live，DNS 记录 的 缓存 时 间 ) 修 

改 得 短 一 些 多 少 可 以 改善 这 个 问题 ， 但 这 并 不 说 只 要 修改 TIL， 令 
DNS 绥 存 频 尝 释放 ， 就 能 解决 根本 问题 


无 从 得 知 服务 器 宕 机 


DNS 服务 右 不 能 知晓 Web 服务 器 的 负载 或 连接 数 等 信息 ， 因 此 无 
法 根据 服务 器 的 反馈 调节 分 配 。 当 Web 服务 器 的 负载 逐步 加 重 ， 
啊 应 时 间 也 变 得 很 慢 时 ，DNS 也 无 从 得 知 连 接 数 是 否 已 经 超出 服 
务 器 能 够 处 理 的 范围 。 也 就 是 说 ， 即 便服 务 器 已经 因为 某 种 原因 宕 
机 ，DNS 服务 占 也 不 会 注意 到 这 些 问题 ， 只 会 继续 进行 负载 分 发 
处 理 。 万 一 用 户 被 分 配 到 已 经 宕 机 的 服务 器 ， 那 么 该 用 户 要 和 面 对 的 
将 是 出 错 的 页 面 。DNS 轮 询 始 终 只 是 机 械 地 做 着 负载 分 发 的 操 

作 ， 而 这 并 不 属于 见 余 的 操作 ， 因 此 很 有 必要 安装 其 他 软件 来 进行 
健康 检查 、 故 障 转移 等 工作 


1.2.2 DNS 轮 询 的 元 余 拓 扑 结构 示例 


在 如 图 1.2.2 所 示 的 拓扑 结构 中 ， 两 台 Web 服务 器 都 被 分 配 了 VIP《〈 虚 
拟 也) 。 万 一 Webl 停止 工作 ，VIP1 就 会 映射 到 Web2， 其 后 所 有 的 访 
问 都 将 由 Web2 处 理 。 相 反 ， 万 一 Web2 停止 工作 ，VIP2 就 会 映射 到 


Web1， 自 然 其 后 所 有 的 访问 都 将 由 Webl 处 理 。 正 是 因为 Web 服务 器 
彼此 之 间 互 相 协调 ， 所 以 只 要 有 能 够 正常 工作 的 服务 器 ，VIP 就 会 进行 
映射 操作 以 维持 服务 的 正常 提供 。 


用 户 访 问 
http://www.example.cn/ 


vww.example.cn IN A 10.0.0.1 
v.example.cn IN A 10.0.0.2 


Web 服 务 器 
10.0.0.101 ( Web1 ) 


Web 服 务 器 
10.0.0.102 ({ Web2 ) 


Web 服 务 器 
10.0.0.102 ( Web2 ) 


图 1.2.2 DNS 轮 询 的 见 余 拓扑 结构 示例 


如 果 直 接 使 用 上 文 介绍 的 代码 清单 1.1.1 (failover.sh) 来 搭建 这 个 拓扑 
结构 ， 束 可 和 能 会 出 现 以 下 问题 : 


。 必须 修改 Web1 与 Web2 的 VIP 设 定 值 
”无 法 在 两 台 服 务 器 上 使 用 同样 的 脚本 


。 由 于 使 用 了 ICMP 监控 ， 因 此 即便 Web 服务 (Apache 等 ) 停 
止 ， 也 无 法 触发 故障 转移 


于 是 ， 我 们 将 代码 清单 1.1.1 的 脚本 修改 成 代码 清单 1.2.1 的 脚本 。 
代码 清单 1.2.1 failover2.sh 


#!/bin/sh 
DEV="ethe" 
VIP="10.0.0.1 106.0.0.2" 


healthcheck() { 
for i in $VIP;do 
if [ -z "ip addr show $DEV | grep $i*" ]; then 
if [ "266" -ne curl -s -I 'http://$i/' | head -n 1 | cut -f 2 -d ' 
CIP="$i" 
return 1 


done 
return 0 


} 


ip takeover() { 
MAC= `ip link show $DEV | egrep -o '([8-9a-f]{2}:){5}[6-9a-f]{2}' 
ip addr add $CIP/24 dev $DEV 
send arp $CIP $MAC 255.255.255.255 ffffffffffff 

} 


while healthcheck; do 
echo "health ok!" 
sleep 1 

done 

echo "fail over!" 

ip_takeover 


这 样 两 台 服 务 器 就 能 使 用 同样 内 容 的 脚本 了 。 这 里 并 没有 使 用 ping 指 
令 ， 而 是 通过 使 用 curB 来 进行 健康 检查 ， 所 以 即使 Web 服务 停止 ， 也 
能 司 动 故障 转移 ， 但 是 这 样 做 仍 会 留 下 两 个 问题 : 


5 命令 行 的 HTTP 客户 端 软件 。 URL http://curl.haxx.se/ 


。 让 使 Web 服务 俘 止 也 无 法 释放 VIP， 因 此 可 能 会 造成 卫 地 
址 冲突 


。 一 旦 局 动 故 障 转 移 ， 该 脚本 就 会 停止 运行 
考虑 到 以 上 两 点 ， 还 需要 对 脚本 做 些 修改 ， 如 代码 清单 1.2.2 所 示 。 


代码 清单 1.2.2 failover3.sh 


#1/bin/sh 
DEV="ethO" 
VIP="1060.60.0.1 106.0.0.2" 


ip_add() { 
MAC= ~ ip link show $DEV | egrep -o '([6-9a-f]{2}:){5}[8-9a-f]{2}' | head - 
ip addr add $1/24 dev $DEV 
send arp $i $MAC 255.255.255.255 ffffffffffff 

} 


ip del() { 
ip addr del $1/24 dev $DEV 


} 


healthcheck() { 
for i in $VIP;do 
if [ "266" -ne curl -s -I 'http://$i/' | head -n 1 | cut -f2-d"''" 

if [ -z "ip addr show $DEV | grep $i*" ]; then 
ip add $i 

else 
ip del $i 

fi 


while true; do healthcheck;sleep 1;done 


代码 清单 1.2.2 的 修改 增加 了 以 下 内 容 : 在 VIP 的 健康 检查 失败 的 情况 
下 ， 若 为 自行 分 配 的 地 址 ， 则 可 视 为 本 机 的 Web 服务 发 生 了 异常 ， 其 
后 释放 VIP ; 相反 ， 若 不 是 自行 分 配 的 地 址 ， 则 可 视 为 对 方 的 Web 服 
务 发 生 了 异常 ， 从 而 自行 将 VIP 映射 。 另 外 ， 在 本 脚本 中 ， 无 论 如 何 映 
射 VIP， 脚 本 都 不 会 停止 运行 。 


1.2.3 ”还 想 更 轻松 地 扩充 系统 .….…... 负载 均衡 器 


根据 以 上 介绍 ， 无 论 哪 方 服务 器 的 Web 服务 及 生 了 有 异常 ， 都 能 够 正确 
地 启动 故障 转移 。 而 要 想 使 用 DNS 轮 询 在 实现 负载 分 发 的 同时 也 实现 


抑 余 ， 就 需要 花费 很 多 心力 。 随 着 服务 器 数量 的 增加 ， 系 统 会 越 来 越 复 
杂 ， 设 置 DNS 轮 询 的 见 余 搭建 也 会 变 得 越 来 越 难 。 如 果 在 3 台 服 务 器 
上 使 用 代码 清单 1.2.2 的 脚本 ， 就 会 出 现 以 下 问题 : 


。 在 余 个 服务 器 宕 机 后 无 法 确定 具体 要 交接 到 哪个 服务 器 


。 根据 启动 故障 转移 的 时 机 ， 有 时 可 能 会 让 两 台 服务 器 分 配 到 同样 
的 IP 地址 
。 一 旦 服务 器 停止 运行 ， 修 复 这 台 服 务 器 的 工作 会 变 得 很 困难 


里 说 通过 进一步 完善 脚本 或 者 配合 使 用 其 他 的 软件 应 该 也 能 解决 这 些 问 
题 ， 但 我 们 还 是 希望 可 以 更 轻松 地 扩充 系统 。 另 外 ， 在 Web 服务 器 的 
拓扑 结构 中 还 是 尽量 不 要 运行 其 他 软件 。 在 下 面 一 节 中 ， 我 们 将 介绍 负 
载 均衡 器 ， 通 过 引入 负载 均衡 器 ， 以 上 问题 就 会 迎 为 而 解 。 


基于 IPVS 的 负 


1.3 实现 Web 服务 器 的 风 余 
载 均衡 磊 


1.3.1 DNS 轮 询 与 负载 均衡 器 的 不 同 点 


负载 均衡 器 (Load Balancer， 也 称 负载 分 发 或 负载 分 流 设备 ) 能 够 将 
向 同一 IP 地 址 发 出 的 请 求 分 发 到 多 台 服 务 器 进行 处 理 。 而 DNS 轮 询 则 
需要 分 别 向 Web 服务 器 分 配 不 同 的 IP 地 址 (全 局 地 址 ) 。 因 此 使 用 负 
载 均 衡器 ， 能 够 节省 全 局 地 址 的 使 用 。 使 用 DNS 轮 询 的 情况 下 ， 在 架 
we 服务 的 宛 余 结构 时 会 费心 费力 ， 而 负载 均衡 器 则 无 需 这 样 的 操 


。 负载 均衡 占 的 行为 
负载 均衡 器 会 被 作为 虚拟 服务 器 使 用 ， 它 拥有 提供 服务 的 全 局 地 
址 。 通 过 将 来 自 客 户 端的 请 求 中 转 到 真正 进行 处 理 的 Web 服务 天 
《下 文 统 称 为 真实 服务 器 ) ， 就 像 是 Web 服务 器 一 样 运 行 

。 负载 均衡 右 的 功能 
负载 均衡 器 是 从 多 人 台 真 实 服务 器 中 选 出 其 中 一 合 ， 并 交 由 其 进行 处 


理 。 负 载 均 衡器 不 会 选择 健康 检查 失败 的 服务 器 ， 而 一 定 会 选择 健 
康 检查 成 功 的 服务 器 。 因 此 无 论 哪 台 服 务 器 停止 运行 ， 只 要 有 一 合 
服务 器 正常 工作 ， 都 不 会 影响 到 整个 服务 的 正常 提供 


引入 负载 均衡 需 的 门槛 


人 们 可 能 会 对 负载 均衡 希 抱 有 "负载 均衡 右 = 晤 贵 的 设备 ”这样 的 印 
象 ， 还 有 可 能 会 担心 目 己 能 人 否 使 用 好 这 套 设备 等 ， 这 些 顾 虑 都 会 提 
高 引入 负载 均衡 的 门槛 


关于 引入 负载 均衡 器 的 门槛 ， 确 实 专用 的 服务 器 产品 会 比较 贵 ， 每 月 的 
最 低 消 费 等 费用 也 比较 高 。 而 且 万 一 发 生 故 障 ， 还 有 必要 联系 研发 商 以 
获得 该 负载 均衡 器 的 技术 支持 。 根 据 使 用 情况 ， 还 有 可 能 需要 升级 防火 
墙 等 ， 因 此 也 不 能 中 断 维护 合同 来 缩减 运营 经 费 。 在 确保 一 定 程度 的 午 
利之 前 ， 难 以 下 决心 引入 负载 均衡 器 的 情况 很 常见 。 但 是 也 可 以 选择 不 
使 用 专用 服务 器 ， 而 使 用 OSS (OpenSource Software， 开 源 软 件 ) 来 搭 
ee 自己 来 运营 。 接 下 来 将 正式 讲解 如 何 自行 搭建 生产 环境 中 的 负 
载 均 衡 句 。 


1.3.2 IPVS ...... 基于 Linux 的 负载 均衡 器 


即使 不 安装 特别 的 软件 ，Linux 也 可 以 作为 路 由 器 (网 络 设备 ) 使 用 。 
而 且 系 统 的 防火 墙 也 有 很 多 实用 的 功能 ， 例 如 分 组 过 滤 (Packet 
Filtering ) 技术 等 众多 的 网 络 功 能 。 提 供 负 载 均衡 功能 的 IPVS (IP 
Virtual Server) 模块 也 包含 在 其 中 。 


负载 均衡 器 的 种 类 与 IPVS 的 功能 


接 下 来 说 明 负 载 均衡 器 的 种 类 。 负 载 均衡 器 的 种 类 按 大 的 方 同 可 分 为 四 
层 交 换 机 (L4 switch) 与 七 层 交 换 机 (L7 switch) 两 种 6 。 四 层 交 换 机 
进行 的 是 传输 层 信 息 的 处 理 ， 可 以 根据 IP 地 址 或 端口 号 ， 指 定 作 为 分 
发 目的 地 的 服务 器 。 而 七 层 交 换 机 进行 的 则 是 应 用 层 信息 的 处 理 ， 可 以 
根据 从 客户 端 请 求 的 UREL， 指 定 分 发 目的 地 的 目标 服务 器 。 


5L4 与 17 在 OSI 参考 模型 中 分 别 对 应 第 四 层 〈 传 输 层 ，Transport Layer) 与 第 七 层 〈 应 用 
层 ，Application Layer) 。 


安装 了 IPVS 就 “相当 于 拥有 了 四 层 交 换 机 的 功能 ”而 七 层 交 换 机 这 里 


暂时 不 会 用 到 。 


在 本 书 的 讲解 中 ， 辱 没有 特别 说 明 ， 均 可 认为 是 四 层 交 换 机 的 负载 均衡 
器 ”。 另 外 ， 一 般 情况 下 说 到 负载 均衡 器 ， 大 多 默认 指 “ 四 层 交 换 机 ?”。 


”在 使 用 反 向 代理 的 情况 下 ， 也 有 可 能 实现 一 部 分 七 层 交 换 机 的 功能 。 关 于 反 向 代理 的 详情 ， 
请 参考 2.1 节 。 


1.3.3 ”调度 算法 


将 处 理 分 发 到 真实 服务 器 时 ， 如 果 平 均 地 分 流 到 所 有 服务 器 ， 在 不 同 配 
置 的 服务 器 混合 使 用 的 环境 下 就 有 可 能 造成 服务 器 负载 不 平衡 。 在 
IPVS 中 有 一 种 名 为 “调度 算法 ”(Scheduling Algorithm〉 的 调度 器 ， 必 
Re 表 1.3.1 是 主要 的 算法 一 览 


表 1.3.1 主要 的 算法 


rr (round-robin， 轮 询 ) 调度 


该 算法 不 考虑 别 的 因素 ， 单 纯 以 轮 叫 的 方式 依次 请 求 真实 服务 器 。 因 此 处 理会 被 均 
等 地 分 发 给 所 有 的 服务 器 

wrr (weighted round-robin， 加 权 轮 询 ) 调度 

与 上 述 的 mr 有 些 类 似 ， 但 该 算法 引用 了 一 个 加 权 值 来 控制 分 发 的 比率 。 加 权 值 越 大 ， 
服务 器 被 选择 的 概率 就 越 高 ， 因 此 为 了 让 处 理性 能 较 高 的 服务 器 承受 更 多 请 求 ， 
需 增 大 其 加 权 值 即 可 


lc 〈]least-connection， 最 小 连接 ) 调度 

该 算法 是 将 新 的 连接 请 求 分 配 到 当前 连接 数 最 少 的 服务 器 。 在 大 部 分 的 情况 下 使 用 
ee 在 不 知道 到 底 要 选择 哪 种 算法 合适 的 情况 下 ， 选 择 这 个 准 没 
日 

wlc (weighted least-connection， 加 权 最 小 连接 ) 调度 
与 上 述 的 lc 有 些 类 似 ， 不 过 该 算法 引入 了 加 权 值 。 由 于 该 算法 通过 “(连接 数 +1) = 
加 权 值 ”算出 了 最 小 因数 的 服务 器 ， 所 以 会 更 有 效 地 分 配 连 接 。 与 wrr 一 样 ， 加 大 高 
性 能 的 服务 器 的 加 权 值 是 比较 好 的 选择 

sed (shortest expected delay， 最 短 预 期 延 时 ) 调度 
该 算法 会 选择 响应 速度 最 快 的 那 台 服务 器 。 但 它 并 没有 监测 传送 数据 分 组 到 目标 服 
务 器 的 应 答 时 间 ， 而 是 选择 状态 是 ESTABLISHED 的 连接 数 《〈 下 文 统称 为 活动 连接 
数 ) 最 少 的 服务 器 。 其 行为 基本 上 和 上 述 的 wlc 一 样 ， 但 wlc 会 把 除 ESTABLISHED 以 


外 的 状态 “TIME_WAIT 或 FIN_WAIT 等 ) 的 连接 数 计算 在 最 小 因数 中 ， 这 点 即 是 wlc 


与 sed 不 同 的 地 方 
nq (never queue， 不 排队 ) 调度 


与 上 述 的 sed 算 法 类 似 ， 该 算法 会 最 优先 选择 活动 连接 数 为 0 的 服务 器 


针对 真实 服务 器 的 不 同 配置 ， 引 入 了 “加 权 值 ”〈《Weight) 这 一 参数 ， 可 
以 根据 需要 对 加 权 值 进行 合理 的 设 定 。 在 茶 些 算法 中 ， 该 加 权 值 越 大 就 
表示 服务 器 的 处 理 能 力 越 高 ， 据 此 可 以 调节 分 流 比 率 。 在 表 1.3.1 中 的 
算法 行为 一 栏 中 ， 对 每 个 算法 如 何 选择 真实 服务 器 一 一 进行 了 说 明 。 


IPVS 中 还 包含 有 表 1.3.1 中 没有 列 出 的 调度 算法 。 通 过 将 IPVS 和 透明 
代理 〈Transparent Proxy) 或 高 速 缓存 服务 器 等 并 用 ， 可 以 优化 性 能 。 
虽然 这 里 不 会 用 到 ， 不 过 我 们 还 是 将 这 些 算 法 进行 了 整理 ， 如 表 1.3.2 
所 示 。 


表 1.3.2 其 他 的 调度 算法 


sh (source hashing， 源 地 址 散 列 ) 调度 


对 发 出 请 求 的 耳 地 址 《〈 即 源 地 址 ) 计算 散 列 值 (Hash Value) ， 并 通过 该 值 选 择 具 体 
分 发 到 哪个 真实 服务 器 


dh (destination hashing， 目 标 地 址 散 列 ) 调度 
ee 目标 卫 地 址 计算 散 列 值 ， 并 通过 该 值 选 择 具 体 分 发 到 哪个 真实 服 
器 


lblc (locality-based least-connection， 基 于 局 部 性 的 最 小 连接 ) 调度 


在 连接 数 没有 超过 加 权 值 指定 的 值 时 ， 将 选择 同一 台 服 务 器 。 若 是 超过 了 加 权 值 指 
定 的 值 ， 则 选择 其 他 的 服务 器 。 当 所 有 服务 器 的 连接 数 都 超过 加 权 值 指定 的 值 时 ， 
将 选择 最 终 所 选 的 那 台 服务 器 


lblcr ‘locality-based least-connection with replication， 带 复制 的 基于 局 部 性 最 小 连 
接 ) 调度 


与 上 述 的 lblc 有 些 类 似 ， 当 所 有 服务 器 的 连接 数 都 超过 加 权 值 指定 的 值 时 ， 将 选择 连 
接 数 最 少 的 那 台 服务 器 


1.3.4 使 用 IPVS 
可 以 通过 以 下 软件 使 用 IPVS 的 功能 : 


e。 ipvsadm URL http:/www.linuxvirtualserver.org/software/ipvs.html 
。 keepalived URL http://www.keepalived.org/ 


ipvsadm 


ipvsadm 是 由 IPVS 的 开发 商 提供 的 命令 行 工 具 8 。 除 了 定义 虚拟 服务 
器 及 分 配 真 实 服 务 器 等 功能 外 ， 也 可 以 确认 设 定 内 容 和 连接 状态 ， 另 外 
也 能 将 传输 率 等 统计 信息 显示 出 来 。 


8 其 地 位 就 相当 于 netfilter 组 件 与 iptables 命令 之 间 的 关系 。 


keepalived 


keepalived 是 用 C 语言 编写 的 守护 程序 。 可 以 根据 配置 文件 

Getc/keepalived/keepalived.conf) 的 内 容 来 搭建 IPVS 的 虚拟 主机 。 其 
功能 主要 表现 在 : 对 真实 服务 器 进行 健康 检查 ， 并 自动 将 已 经 宕 机 的 服 
务 器 排除 在 负载 均衡 所 分 配 的 范围 外 ;如 果 所 有 的 真实 服务 器 全 数 宕 
机 ， 则 会 显示 “服务 器 繁忙 ?等 消息 ， 即 具备 sorry_server 功能 。 


截至 2014 年 11 月 ， 最 新 的 版 本 是 keepalived-1.2.13， 该 版 本 文 持 以 下 
健康 检查 。 


。HTTP_GET: 通过 发 送 HTTP 的 GET 请 求 来 确认 目标 服务 器 的 
应 答 情 况 


。SSL_GET : 通过 发 送 HTTPS 的 GET 请 求 来 确认 目标 服务 器 的 
应 答 情 况 


。TCP_CHECK : 通过 测试 TCP 连接 是 否 正 常 来 确认 目标 服务 器 
的 情况 

。SMTP_CHECK : 通过 发 送 SMTP 的 HELO 命令 来 确认 目标 服务 
器 的 应 答 情 况 


。 MISC_CHECK : 通过 执行 外 部 命令 所 返回 的 结束 代码 来 确认 目 
标 服务 器 的 健康 状况 


1.3.5 ”搭建 负载 均衡 器 


接 下 来 使 用 keepalived 搭建 如 图 1.3.1 所 示 的 系统 。 这 里 将 10.0.0.1 作为 
服务 器 使 用 的 全 局 IP 地 址 。 在 该 负载 分 发 的 拓扑 结构 中 ， 当 客户 端 访 
问 http://10.0.0.1/ 时 ， 该 请 求 就 会 被 转 到 Web1 与 Web2 进行 处 理 。 其 他 
详细 的 配置 参数 如 下 。 


Web 服务 器 
192.168.0.1 { Web1 ) 


192.168.0.254 


192.168.0.2 ( Web2 ) 


图 1.3.1 使 用 负载 均衡 器 进行 负载 分 流 
。 调度 算法 : rr (round-robin) 
。 健康 检查 的 类 别 : HTTP_GET 
。 健康 检查 的 页 面 : http://health/health.html 
。 健康 检查 成 功 的 条 件 ， 状 态 代 码 返 回 200 
健康 检查 的 超时 时 间 : 5 秒 
代码 清单 1.3.1 是 将 以 上 参数 作为 keepalived 的 配置 文件 进行 编写 的 。 
代码 清单 1.3.1 ”keepalived 的 配置 


virtual server group example { 


10.0.0.1 80 
} 
virtual server group example { 
lvs_sched rr 
lvs_method NAT 
protocol TCP 
virtualhost health 
real server 192.168.0.1 86 { 
weight 1 
HTTP_GET { 
url { 
path /health.html 
status code 266 


} 
connect_ port 80 
connect timeout 5 
} 
} 
real server 192.168.0.2 80 1{ 
weight 1 
HTTP_GET { 
url { 
path /health.html 
status_ code 266 
} 
connect_ port 80 
connect timeout 5 
} 
} 


配置 web 服务 器 


0 keepalived 前 ， 需 要 确认 Web 服务 器 的 配置 ， 必 要 的 操作 有 下 
面 3 点 : 


。 设置 默认 网 关 为 192.168.0.254 
。 设置 健康 检查 页 面 
。 设置 用 于 确认 运行 情况 的 页 面 


在 此 拓扑 中 ， 来 自 客 户 端的 请 求 与 来 目 真 实 服务 需 的 啊 应 都 必须 经 由 负 
0 因此 需要 事先 设置 各 Web 服务 器 的 默认 网 关 为 负载 均衡 如 
IP 地 址 。 


Keepalived 会 对 真实 服务 器 进行 健康 检查 。 这 里 访问 
http://health/health.html ， 并 检查 是 否 会 返回 200 的 状态 代码 ， 
因此 有 必要 在 每 个 Web 服务 器 上 都 设置 一 个 用 来 做 健康 检查 的 页 面 。 


另外 还 需要 准备 好 确认 运行 情况 的 页 面 。 在 确认 运行 情况 时 ， 为 了 更 容 
易 地 把 握 有 具体 分 流 到 了 哪个 服务 器 ， 应 该 特意 将 index.html 写 入 为 不 同 
的 内 容 以 示 区 别 ， 这 里 将 index.html 写 入 主机 名 (Web1、Web2) 。 


启动 keepalived 


请 把 代码 清单 1.3.1 放 到 /ect/keepalived/keepalived.conf 下 ， 然 后 启动 
keepalived，IPVS 的 虚拟 服务 器 束 搭 建 好 了 。 如 图 1.3.2 所 示 ， 可 以 使 
用 ipvsadm 命令 确认 虚拟 服务 器 。 在 图 1.3.2 中 ， 代 码 清单 将 连接 到 
10.0.0.1:80 的 请 求 ， 分 流 到 192.168.0.1:80 与 192.168.0.2:80 两 台 主 机 上 
进行 处 理 。 


# ipvsadm -Ln 
IP Virtual Server version 1.2.1 (size=1648576) 
Prot LocalAddress:Port Scheduler Flags 
-> RemoteAddress:Port Forward Weight ActiveConn InActConn 
TCP 16.6.9.1:86 rr 


-> 192.168.0.1:80 Masq 1 0 0 
-> 192.168.0.2:80 Masq 1 0 0 


图 1.3.2 确认 虚拟 服务 器 
确认 负载 分 流 
从 客户 端 访问 http://10.0.0.1/， 会 得 出 如 图 1.3.3 所 示 的 结果 。 每 次 访问 


都 会 交 蔡 连接 到 Web1 与 Web2， 从 而 就 可 以 确认 负载 分 流 的 具体 执行 
es 


$ curl 'http://106.0.0.1/" 


Web1 


$ curl 'http://106.06.0.1/" 
Web2 


$ curl 'http://106.06.0.1/" 
Web1 


$ curl 'http://106.06.0.1/" 
Web2 


图 1.3.3 确认 负载 分 流 
确认 宛 余 的 拓扑 结构 


下 面 在 Web2 宕 机 的 情况 下 再 次 尝试 访问 。 从 图 1.3.4 中 能 够 看 出 ， 可 
以 正常 连接 到 Webl 的 主机 。 所 以 能 够 确认 : 在 见 余 的 拓扑 结构 下 ， 即 
使 Web2 停止 工作 也 不 会 产生 错误 ， 依 旧 可 以 正常 访问 。 


$ curl 'http://106.06.0.1/" 
Web1 


$ curl 'http://106.06.0.1/" 
Web1 


$ curl 'http://106.0.0.1/" 
Web1 


$ curl “http://16.6.96.1/ 
Web1 


图 1.3.4 确认 元 余 的 拓扑 结构 


1.3.6 ”四 层 交 换 机 与 七 层 交 换 机 


前 文 提 到 了 负载 均衡 器 分 为 四 层 交 换 机 与 七 层 交 换 机 两 种 。 虽 说 都 是 进 
行 负载 分 及， 但 两 者 的 处 理 内 容 却 有 很 大 的 差异 。 四 层 交 换 机 通过 解析 


TCP 头等 协议 头 的 内 容 ， 来 决定 分 流 的 目的 地 ， 而 七 层 交 换 机 则 通过 解 
析 软 件 应 用 层 的 内容 ， 来 决定 分 流 的 目的 地 。 


图 1.3.5 表现 了 四 层 交 换 机 与 七 层 交 换 机 的 不 同 点 。 在 四 层 交 换 机 中 ， 
客户 端 (Web 浏览 右 ) 的 通信 目标 是 真实 服务 器 。 而 在 七 层 交 换 机 中 ， 
负载 均衡 器 和 客户 端 会 先 通过 TCP 会 话 进行 握手 。 也 就 是 说 ， 每 次 访 
问 都 会 经 过 : 客户 端 <=> 七 层 交换 机 中 黑色 的 框 <=> 七 层 交 换 机 中 白色 
的 框 <=> 真 实 服务 器 《图 中 为 两 台 ) 。 


“选择 分 流 的 服务 器 
"原封 不 动 地 传送 分 组 


“连接 Web 服 务 器 
“发 出 请 求 
*“ 收 到 响应 


图 1.3.5 ”四 层 交 换 机 与 七 层 交 换 机 的 不 同 点 

四 层 交 换 机 与 七 层 交换 机 的 特点 可 以 简明 地 总 结 如 下 : 
。 奶 求 设 定 的 灵活 性 就 用 七 层 交 换 机 
。 追求 性 能 就 用 四 层 交 换 机 


专人 
七 层 交 换 机 的 灵活 设 定 


七 层 交 换 机 可 以 将 类 似 http://example.cn/*.png 这 样 的 图 片 文 
件 发 送 的 请 求 分 配 到 图 片 专用 的 服务 器 进行 处 理 。 而 对 于 像 
http://example.cn/hoge?SESSIONID=xxxxxxxx 这 样 包含 会 话 
ID 的 请 求 ， 七 层 交 换 机 还 可 以 将 同一 会 话 ID 的 请 求 分 配 到 同一 台 服 
务 器 进行 处 理 。 


也 就 是 说 ， 类 似 于 请 求 目 标 URL 等 应 用 软件 协议 的 内 容 ， 可 以 被 作 
为 选择 真实 服务 器 时 的 条 件 使 用 。 相 反 ， 人 负载 均衡 器 不 能 识别 的 协 
议 ， 则 自然 无 法 实现 负载 分 流 。 比 如 在 对 SMTP 进 行 负载 分 流 时 ， 

虽说 理论 上 可 以 通过 七 层 交 换 机 实现 “将 特定 收 件 人 的 邮件 发 送 到 
特定 的 服务 器 ?， 但 知 是 负载 均衡 需 不 文 持 SMITP， 那 就 无 法 使 用 。 


如 何 决定 将 什么 样 的 协议 根据 什么 样 的 规则 来 进行 分 流 呢 ?虽说 可 
以 依 徘 负 载 均衡 器 所 提供 的 功能 ， 但 “使 用 七 层 交 换 机 就 万 事 大 吉 
了 ”这 样 的 想法 是 要 不 得 的 。 在 选 定 七 层 交 换 机 时 ， 将 想 要 做 的 工 
作 都 准确 无 误 地 确认 好 ， 这 是 很 重要 的 。 


1.3.7 四 层 交 换 机 的 NAT 模型 与 DSR 模型 


下 面 对 四 层 交 换 机 的 性 能 优势 做 个 介绍 。 请 先 思 考 一 下 四 层 交 换 机 的 哪 
些 模型 造 束 了 该 拓扑 结构 的 性 能 优势 。 


四 层 交 换 机 可 以 利用 图 1.3.1 中 搭建 的 NAT (Network Address 
Translation， 网 络 地 址 转换 ) 模型 ,为 了 追求 更 高 的 性 能 ， 也 可 以 搭建 
DSR (Direct Server Returm， 直 接 服 务 器 返回 ) 模型 。DSR 与 NAT 的 不 
同 点 请 参考 图 1.3.6。 


虚拟 服务 器 
y.Y.yYy 


四 层 交换 机 { NAT ) 


X.X.X.X 《一 Y.Y.Y.Y 
XXKX FY.Y.YY XXXX 一 Y.Y.Y.Y 


不 映射 地 址 


虚拟 服务 器 
y.y.yY 
四 层 交换 机 { DSR ) 


图 1.3.6 DSR (下 图 ) 与 NAT (上 图 ) 的 不 同 点 


在 NAT 模型 下 ， 四 层 交 换 机 从 客户 端 收 到 数据 分 组 后 就 修改 分 组 的 目 
的 IP 地址 ， 并 将 分 组 转发 到 真实 服务 器 上 。 因 此 在 真实 服务 器 接收 到 
应 答 数 据 分 组 后 ， 需 要 特别 返回 源 卫 地 址 。 而 在 DSR 模型 下 ，IP 地 址 
并 不 会 被 映射 。 四 层 交 换 机 从 客户 瑞 接 收 到 分 组 后 ， 不 做 任何 修改 束 直 
接 将 分 组 从 路 由 器 发 送 到 真实 服务 右上。 在 这 种 情况 下 ， 由 于 没有 必要 
对 应 答 的 分 组 返回 IP 地 址 ， 因 此 真实 服务 需 即 使 不 经 由 四 层 交 换 机 也 
能 够 返回 应 答 。 


各 担心 负载 均衡 器 出 现 瓶颈 问题 ， 或 者 需要 能 够 承 有 党 高 流量 的 负载 分 发 
环境 ， 这 里 推荐 使 用 DSR 模型 。 顺 带 一 提 ， 在 使 用 keepalived 来 搭建 
DSR 时 ， 请 将 lvs_method 设 定 为 “DR”( 请 注意 在 这 里 不 应 该 设 定 

为 “DSR”) 。 


但 在 DSR 模型 中 ， 发 送 给 虚拟 服务 器 的 分 组 〈 全 局 IP 分 组 ) 没有 做 任 
何 修改 就 原样 到 达 了 真实 服务 器 ， 由 于 真实 服务 器 不 能 处 理 该 全 局 IP 

分 组 ， 因 此 无 法 处 理 该 请 求 。 也 就 可 以 说 ， 对 于 NAT 模型 的 系统 ， 只 
修改 负载 均衡 器 的 设 定 是 没有 办 法 实现 负载 均衡 的 。 


最 简便 的 设 定 方式 是 ， 将 虚拟 服务 喜 的 IP 地 址 映射 到 真实 服务 器 的 环 
回 接口 (Loopback Interface) 上， 男 外 还 有 一 种 方法 是 ， 使 用 netfilter 
的 相关 功能 ， 将 发 给 虚拟 服务 右 的 分 组 的 本 地 源 地 址 映射 为 私有 的 本 地 
全 球 地 址 ( 即 在 本 地 范围 内 扩大 地 址 的 使 用 范围 ， 以 扩展 地 址 的 容 

量 ) ， 这 种 方式 称 为 DNAT (Destination Network Address Translation, 
目的 网 络 地 址 转换 ) 。 


1.3.8 同一 子 网 下 的 服务 器 进行 负载 分 流 时 需要 注意 的 地 方 


至 此 ， 我 们 已 经 探讨 了 公 网 Web 服务 器 的 负载 分 流 。 其 实 负载 均衡 需 
的 用 途 并 不 仅 限 于 此 ， 例 如 在 信息 发 布 系统 中 ， 从 Web 服务 器 到 邮件 
服务 器 可 能 需要 发 送 大 量 邮件 。 奉 只 有 一 人 台 邮 件 服务 顺 来 处 理 ， 想 必 会 
化 不 少时 间 ， 因 此 可 以 考虑 使 用 负载 均衡 右 将 邮件 服务 器 进行 负载 分 
流 。 人 1.3.7， 但 该 拓扑 结构 有 几 扣 需要 


在 这 样 的 拓扑 结构 中 
无 法 使 用 NAT 


负载 均衡 器 


虚拟 服务 器 
192.168.0.150 


Web 服务 器 邮件 服务 器 邮件 服务 器 
192.168.0.1/24 192.168.0.151/24 ( Maill ) ) (192.168.0.152/24 ( Mail2 ) 


图 1.3.7 同一 子 网 下 的 负载 分 流 


在 同一 子 网 需要 负载 分 流 时 ， 不 能 使 用 NAT 模型。NAT 模型 下 会 映射 
负载 均衡 器 的 源 卫 地 址 ， 比 如 在 邮件 服务 器 中 ， 接 收 到 的 分 组 是 从 源 
地 址 192.168.0.1 发 送 到 目的 地 址 192.168.0.151 的 ， 因 此 该 邮件 服务 器 
返回 的 应 答 分 组 的 源 地 址 是 192.168.0.151， 目 的 地 址 是 192.168.0.1。 正 


因为 源 地 址 192.168.0.151 与 目的 地 址 192.168.0.1 是 同一 子 网 下 的 IP 了 地 
址 ， 因 此 不 会 将 分 组 发 往 负载 均衡 器 ， 而 直接 从 源 地 址 发 送 到 Web 服 
务 器 。 因 此 该 NAT 模型 中 源 地 址 的 卫 地 址 尚未 被 正确 转发 到 目标 服务 
器 ， 进 而 就 造成 了 不 能 正常 完成 通信 。 
该 情况 下 ， 使 用 上 文 介绍 的 DSR 模型 是 比较 好 的 选择 。 因 为 DSR 模型 
不 用 映射 负载 均衡 器 的 IP 地址， 所 以 束 拭 邮件 服务 器 直接 同 Web 服务 
器 返回 应 答 也 完全 没有 问题 。 

专栏 

基于 Linux 平 台 的 七 层 交 换 机 


基于 Linux 平 台 搭 建 七 层 交 换 机 所 使 用 的 软件 还 在 不 断 开 及 中 ， 以 
下 介绍 两 球 软 件 : 


。 UltraMonkey-L7 
URL http://sourceforge.jp/projects/ultramonkey-17/ 
e。 Linux Layer7 Switching 
URL http://zh.sourceforge.jp/projects/freshmeat_ linux-l7sw/ 
UltraMonkey-L7 于 2008 年 1 月 发 布 了 1.0.1-0 版 本 。 截 至 目前 (2014 年 
11 月 ) ， 已 经 更 新 到 了 3.1.1-1 版 。 现 在 使 用 UltraMonkey-L7 已 经 可 
以 搭建 稳健 的 七 层 交 换 机 ， 该 软件 的 实用 性 也 非常 让 人 满意 。 
而 Linux Layer7 Switching 虽 然 于 2007 年 1 月 发 布 了 0.1.2 版 本 ,但 似乎 
之 后 该 软件 并 没有 更 新 ， 该 软件 有 多 大 的 实用 性 现在 还 是 未 知 数 。 
1.4 路 由 占 及 人 负载 均衡 器 的 见 余 
1.4.1 负载 均衡 器 的 见 余 
到 目前 为 止 ， 我们 都 只 在 介绍 Web 服务 器 的 元 余 ， 还 尚未 提 及 负载 均 


衡器 的 元 余 。 如 果 仪 有 的 一 台 负 载 均衡 器 及 生 故 障 的 话 ， 那 么 所 有 的 服 
务 都 会 停止 。 虽 说 可 以 使 用 冷 备 份 ， 为 预防 故障 事先 多 准备 一 人 台 负 载 均 


衡 锅 作为 备用 ， 但 是 当 故 障 有 发生 时 各 没 有 人 力 干 预 ， 依 旧 无 法 及 时 恢复 


一 /一 


运行 。 
本 节 将 介绍 路 由 器 及 负载 均衡 器 的 故障 转移 的 方法 。 
1.4.2 ”虚拟 路 由 器 见 余 协议 (VRRP) 


现在 市 面 上 有 很 多 包含 元 余 功能 的 路 由 圳 与 负载 均衡 融 的 产品 。 以 前 由 
于 产品 之 间 安 装 的 见 余 实现 各 不 相同 ， 因 此 基本 上 都 使 用 厂商 独 有 的 协 
议 。 


当然 不 同 的 协议 间 不 能 相互 兼容 ， 这 会 造成 很 多 不 便 ，Cisco 公司 以 
HSRP (Hot Standby Routing Protocol， 热 备份 路 由 器 协议 ) 为 基础 ， 制 
定 出 了 不 依赖 于 厂商 的 见 余 协议 ， 即 VRRP (Virtual Router 
Redundancy Protocol， 虚 拟 路 由 器 元 余 协 议 ) 。 很 多 路 由 器 及 负载 均衡 
器 都 采用 了 在 RFC 37689 中 定义 的 VRRP。 上 一 节 中 介绍 的 keepalived 
也 使 用 了 VRRP， 这 样 只 需 再 搭建 一 台 负 和 载 均衡 器 ， 并 在 keepalived 添 
加 相关 的 设 定 ， 就 可 以 实现 元 余 。 


9 URL http://www .ietf.org/rfc/rfc3768.txt 


1.4.3” VRRP 的 拓扑 模型 


路 由 句 与 负载 均衡 右 的 故障 转移 的 原理 ， 与 1.1 市 中 讲解 Web 服务 右 的 
故障 转移 流程 时 提 到 的 “健康 检查 ”IP 地 址 的 映射 ?几乎 是 一 样 的 ， 即 检 
查 节 点 是 否 正 党 工作 ， 万 一 出 问题 的 话 ， 备 用 节点 就 会 映射 VIP (虚拟 
地 址 ) ， 发 生 故 障 转移 。 


在 介绍 VRRP 的 搭建 及 设 定 前 ， 我 们 首先 对 VRRP 常用 的 规则 、 术 
语 ， 以 及 其 行为 做 了 如 下 整理 。 使 用 VRRP 时 ， 请 留心 这 些 关键 

字 : “VRRP 报 文 尖 虚拟 规则 ID 关 优 先 顺序 ”抢占 模式 ”虚拟 MAC 地 
址 ”。 


VRRP 报 文 
所 谓 健 康 检查 ， 一 般 是 指定 期 对 监控 对 象 的 设备 发 出 一 些 请 求 ， 确 认 这 


些 请 求 是 否 取得 了 应 答 。 而 VRRP 则 通过 相反 的 途径 监控 主 节 点 的 运 
行 ， 即 VRRP 的 主 节点 会 定期 将 VRRP 报 文 (VRRP Packet) 不 断 地 发 


送 到 多 点 传送 地 址 〈224.0.0.18，Multicast Address) 。 由 于 VRRP 报 文 
类 似 于 “播报 ” 主 节 点 可 用 的 信息 ， 因 此 也 被 称 为 “组 播 信 

上 县”(AdvertisemenbD。 图 1.4.1 是 VRRP 报 文 的 格式 ， 该 报 文 对 以 下 三 
项 数据 进行 了 编排 : 


。IP Address (虚拟 IP 地 址 ， 即 VIP) 


。 Virtual Rtr ID (虚拟 路 由 器 ID) 
。 Priority〔 优 先 顺序 ) 


0 1 2 3 
Oo123456789612345678936123456789601 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 
|Version| Type Virtual Rtr ID| Priority | Count IP Addrs| 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 
| Auth Type Adver Int | Checksum | 
-十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 

IP Address (1) 

十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 


十 
十 


十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 
IP Address (ny) 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 
Authentication Data (1) 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 
Authentication Data (2) 
十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 -十 - 


+ 一 + 一 + 一 + 一 一 一 + 一 二 


十 
十 
十 
十 
十 
十 


图 1.4.1 VRRP 报 文 的 格式 < 


※ 引 自 http:/www.ietf.org/rfc/rfc3768.txt。 


备用 节点 通常 会 在 正确 接收 到 VRRP 报 文 时 进入 待机 状态 ， 若 一 段 时 间 
没有 收 到 VRRP 报 文 的 信息 ， 备 用 节点 就 会 认为 主 节 点 已 经 宕 机 ， 从 而 
局 动 故障 转移 。 因此 在 VRRP 中 ， 备 用 节点 不 会 主动 地 确认 主 节 点 的 状 


UN Oo 


虚拟 路 由 器 ID 


向 事先 决定 的 组 播 地 址 (224.0.0.18) 发 送 VRRP 报 文 时 ， 该 组 播 地 址 
从 头 到 尾 都 不 会 改变 。 如 图 1.4.2 所 示 ， 在 同一 网 络 上 同时 设置 有 多 台 
负载 均衡 器 的 情况 下 ， 所 有 的 VRRP 报 文 都 会 发 向 同一 地 址 。 这 看 起 来 
似乎 会 引起 错误 操作 ， 但 实际 上 VRRP 中 使 用 了 名 为 虚拟 路 由 器 ID 的 
参数 ， 可 以 分 辨 实例 ， 因 此 不 会 出 现 问题 。 如 图 1.4.2 所 示 ， 在 负载 均 
衡器 A、B 与 负载 均衡 器 C、D 中 ， 只 需 对 虚拟 路 由 器 ID 做 出 合理 设 
定 ， 就 能 确保 图 1.4.2 的 拓扑 模型 可 以 正常 工作 。 


LA 
aa 
P= 


负载 均衡 器 人 


{ Active ) 
224.0.0.18 


发 送 VRRP 报 文 


发 送 VRRP 报 文 


图 1.4.2 在 同一 网 络 上 设置 多 台 人 负载 均衡 器 
优先 顺序 


在 VRRP 的 拓扑 结构 示例 中 ， 经 和 常 可 以 看 到 拓扑 结构 由 Active/Backup 
台 设 备 构成 ， 但 在 实际 使 用 中 也 有 可 能 同时 拥有 100 台 以 上 的 备用 市 

点 ， 这 样 就 可 能 会 造成 一 个 问题 ， 当 两 台 以 上 的 备用 节点 同时 工作 时 ， 

若是 主 节 点 出 现 问 题 ， 那 么 主 节 点 具体 要 漂移 到 哪个 备用 节点 呢 ? 


在 VRRP 中 ， 会 为 各 节点 设 定 优先 顺序 (Priority) 的 值 ， 各 节点 在 接 
收 不 到 VRRP 报 文 时 ， 会 自行 发 出 VRRP 报 文 。 由 于 VRRP 报 文 中 有 
事先 设 定 的 优先 顺序 值 ， 因 此 通过 比较 该 值 ， 就 可 以 迅速 了 解 到 比 本 节 
点 优先 值 高 的 其 他 节点 是 否 存 在 。 万 一 有 其 他 节点 的 优先 值 比 本 节点 
高 ， 则 其 他 节点 会 比 本 节点 优先 升格 为 主 节点 。 虽 然 是 非常 简单 的 操 
作 ， 但 通过 设 定 节点 的 优先 顺序 ， 在 漂移 到 备用 节点 时 ， 就 可 以 从 优先 
顺序 高 的 节点 依次 进行 ， 使 优先 顺序 高 的 备用 节点 作为 主 节点 使 用 。 


抢占 模式 


在 VRRP 的 默认 设 定 中 ， 当 比 现 有 的 主 节 点 优先 顺序 高 的 节点 局 动 时 ， 
会 发 生 故 障 转移 。 也 就 是 说 可 以 认为 优先 顺序 高 的 节点 一 定 是 主 节 点 。 
这 个 行为 可 以 通过 设 定 抢占 模式 (Preemptive Mode) 进行 改变 。 将 抢 
占 模式 设 为 无 效 的 情况 下 ， 只 要 主 节点 正常 工作 ， 即 使 其 他 节点 的 优先 
级 比 主 节点 高 ， 也 不 会 出 现 故障 转移 。 


根据 情况 的 不 同 ， 选 择 的 抢占 模式 也 不 一 样 。 比 如 主 节点 的 情况 已 经 不 
乐观 ， 设 备 很 可 能 会 频繁 重启 ， 这 时 将 抢占 模式 设 为 无 效 是 比较 好 的 选 
择 。 相 反 ， 如 果 是 为 了 防止 操作 失误 而 希望 在 两 节点 都 可 以 选择 时 ， 一 
定 要 漂移 到 特定 的 节点 ， 则 将 抢占 模式 设 为 有 效 会 是 比较 好 的 选择 。 


虚拟 MAC 地 址 


VRRP 中 除了 定义 了 虚拟 卫 地址， 还 定义 了 虚拟 MAC 地 址 。 为 了 完 
成 映射 ， 在 故障 保护 时 ， 不 仅 需 要 映射 IP 地址 ， 还 需要 映射 MAC 地 
址 。 如 果 在 不 映射 MAC 地 址 的 情况 下 映射 IP 地 址 ， 通 信 目 标 下 所 有 设 
备 的 ARP 绥 存 表 都 需要 更 新 。 为 此 ， 一 般 使 用 1.1 节 介 绍 的 gratuitous 
ARP 进行 ARP 请 求 ， 但 在 以 太 网 〈Ethernet) 的 操作 环境 中 ， 无 法 保证 
所 有 的 设备 都 能 正常 收 到 ARP 请 求 。 万 一 哪个 设备 的 ARP 缓存 表 没 有 
和 则 直到 该 设备 的 ARP 缓存 更 新 为 止 ， 都 没 办 法 与 这 人 台 设 备 进 行 
过 人 和合 。 


为 此 ， 在 VRRP 中 映射 MAC 地 址 时 ， 需 要 对 通信 目标 的 ARP 请 求 的 
更 新 进行 特别 处 理 。 例 如 在 RFC 3768 中 ， 在 进入 主 节 点 状态 前 会 发 出 
gratuitous ARP， 其 实 这 样 做 的 目的 不 是 为 了 更 新 通信 目标 的 ARP 绥 存 
表 ， 而 是 为 了 更 新 二 层 交 换 机 中 MAC 地 址 的 学 习 状 态 。 


1.4.4 ”安装 keepalived 时 可 能 遇 到 的 问题 


在 keepalived 的 VRRP 中 ， 由 于 不 使 用 虚拟 MAC 地 址 ， 因 此 无 法 按照 
RFC 3768 的 方式 进行 安装 。 虽 说 在 Linux 平台 下 可 以 改变 MAC 地 址 ， 
但 因为 无 法 拥有 多 个 MAC 地 址 ， 安 装 的 keepalived 中 束 无 法 使 用 虚拟 
MAC 地 址 ， 所 以 在 故障 转移 时 就 很 可 能 存在 ARP 请 求 还 尚未 更 新 的 设 
在 这 种 情况 下 ， 直 到 ARP 绥 存 清除 为 止 ， 该 设备 都 无 法 进行 通 


延迟 发 送 gratuitous ARP (GARP) 


为 了 解决 这 个 问题 ，keepalived 中 有 一 个 “grap_master_delay” 的 设 定 项 
目 。keepalived 在 主 节 点 状态 漂移 后 ， 紧 接 痢 就 会 用 出 gratuitous ARP， 
但 在 这 个 瞬间 大 都 存在 网 络 不 稳定 的 状况 ， 例 如 可 能 流量 太 过 于 集中 造 
成 无 法 通信 。keepalived 为 了 确保 让 通信 目标 能 准确 地 接收 到 更 新 ARP 
的 请 求 ， 会 安排 在 等 待 数秒 后 再 发 送 gratuitous ARP。 这 个 等 待 的 时 间 
可 以 在 grap_master_delay 中 设 定 ， 默 认 值 是 5 秒 。 


例如 假设 有 这 样 一 个 系统 : 采用 STP 〈Spanning Tree Protocol， 生 成 树 
协议 ) 搭建 网 络 ， 在 二 层 交 换 机 宕 机 后 ， 负 和 载 均衡 器 会 启动 故障 转 
移 。 在 二 层 交 换 机 宕 机 的 瞬间 ，STP 的 收 钱 (Convergence) 开始 进 

行 ， 这 可 能 会 造成 数秒 到 数 十 秒 的 通信 中 断 。 由 于 在 此 期 间 发 送 的 
gratuitous ARP 并 没有 实际 传 到 其 他 节点 ， 因 此 可 以 通过 设 定 
grap_master_delay 在 收敛 完成 后 再 发 送 gratuitous ARP。 在 keepalived 的 
VRRP 实现 中 ， 因 为 存在 与 RFC 3768 中 所 定义 的 内 容 不 一 样 的 地 方 ， 
因此 在 实际 网 络 环境 中 使 用 时 ， 有 必要 验证 是 否 能 够 正确 启动 故障 转 


移 。 


10 JEEE 802.1D 规定 了 这 种 链 路 管理 协议 。 


1.4.5 ”keepalived 的 元 余 


接 下 来 ， 使 用 keepalived 搭建 出 如 图 1.4.3 所 示 的 系统 。 图 1.4.3 中 的 
Iv1 与 lv2 是 在 Linux 中 安装 了 keepalived 的 负载 均衡 器 。 代 码 清音 
1.4.1 是 lv1 与 lv2 的 keepalived.conf 的 设 定 工 。 表 1.4.1 中 解释 了 各 个 
参数 的 意义 。 


1 代码 清单 1.4.1 中 省 略 了 IPVS【〔〈 和 负载 分 流 ) 的 相关 设 定 。 


Iv1 
10.0.0.252/24 
192.168.0.252/24 


10.0.0.252/24 
192.168.0.252/24 


10.0.0.253/24 
192.168.0.253/24 


Web 服务 器 
192.168.0.1/24 { Web1 ) 


Web 服务 器 
192.168.0.1/24 ( Web1 } 


Web 服务 器 
192.168.0.2124 { Web2 ) 


图 1.4.3 负载 均衡 右 的 见 余 
代码 清单 1.4.1 VRRP 的 设 定 @ (v1 的 示例 ) 


vrrp_instance VI { 
state MASTER 
interface eth6 


garp_master delay 5 
virtual_router id 266 
priority 161 < 在 lv2 中 修改 为 166 
advert int 1 
authentication { 
auth type PASS 
auth_pass HIMITSU 
} 
virtual ipaddress { 
10.0.0.254/24 dev ethe 
192.168.6.254/24 dev eth1 


Iv2 
10.0.0.253/24 
192.168.0.253/24 


Web 服务 器 
192.168.0.2/24 ( Web2 ) 


| 


表 1.4.1 各 参数 的 意义 


是 作为 BACKUP (备用 节点 ) 启动 


指定 发 出 或 接收 VRRP 报 文 的 接口 


state MASTER 启动 keepalived 的 时 候 ， 指 定 是 作为 MASTER 〈 主 节点 ) 启动 还 


garp_master_delay | 指定 从 主 节 点 状态 漂移 后 ， 到 再 次 发 送 gratuitous ARP 的 间隔 秒 


5 数 


virtual_router id | 虚拟 路 由 器 ID 。 每 个 VRRP 实例 都 要 指定 一 个 独一无二 的 值 ， 
100 可 指定 的 范围 是 0 到 255 


| VRRP 优先 顺序 的 设 定 值 。 在 选择 主 节点 的 时 候 ， 该 值 大 的 备 月 
PONY 节点 会 优先 漂移 为 主 节点 
snes vine 报 文 的 发 送 间 隔 。 以 秒 为 单位 来 指定 。 默 认 值 为 1 秒 


VIP〔 虚 拟 地 址 )。 书 写 格式 如 下 ， 可 以 同时 指定 两 个 以 上 的 虚 
Virtual_ipaddress | 拟 地 址 
<IPADDR>/<MASK>dev<STRING> 


确认 VIP 

在 1v1 与 lv2 中 启动 了 keepalived 后 ，lvl 就 被 分 配 了 VIP (10.0.0.254 
与 192.168.0. 254) ， 但 这 无 法 通过 ifconfig 命令 来 确认 ， 可 以 通过 如 
图 1.4.4 所 示 的 ip 命令 进行 确认 。 


lvi:~# ip addr show ethe 


2: eth6: 《BROADCAST ,MULTICAST,UP> mtu 1566 qdisc pfifo fast qlen 1666 
link/ether xx:xx:xx:xx:xx:xx brd ff:ff:ff:ff:ff:ff 
inet 16.6.6.252/24 brd 16.6.96.255 scope global ethe6 
inet 16.6.6.254/24 scope global eth6 


lvi:~# ip addr show eth1 

3: eth1: <BROADCAST,MULTICAST,UP> mtu 1566 qdisc pfifo fast qlen 1666 
link/ether xx:xx:xx:xx:xx:xx brd ff:ff:ff:ff:ff:ff 
inet 192.168.0.252/24 brd 192.168.6.255 scope global eth1 
inet 192.168.6.254/24 scope global eth1 


图 1.4.4 确认 VIP 
确认 VRRP 的 运行 情况 
故障 转移 的 运行 情况 的 确认 结果 可 总 结 如 下 : 


@ 关闭 Ilv1 -lv2=Master o 


四 月 动 lv1 -~ lv1=Master，lv2=Backup o 

全 将 1v1 的 eth0 网 线 拔 掉 ”lv1=Backup，lv2=Master o 
@ 将 Iv1 的 eth0 网 线 插 回 > lv1=Master，lv2=Backup o 
全 将 Iv1 的 ethl 网 线 拔 掉 >” lv1=Master，lv2=Backup x 


这 样 看 来 ， 在 上 述 第 @ 条 拔 掉 ethl 网 线 时 ， 和 情况 似乎 有 些 奇 怪 。 原 本 
在 lv1 的 ethl 链 路 失效 时 ， 应 该 是 lv1=Backup，lv2=Master。 


分 离 VRRP 实例 


在 以 上 的 设 定 中 ， 因 为 Je 报 文 只 有 eth0 传输 数据 ， 所 以 在 ethl 网 
线 拔 掉 时 自然 无 法 检测 出 异常 。 如 果 想 检测 出 多 个 实例 的 故障 ， 就 要 如 
代码 清音 1.4.2 所 示 ， 对 每 个 接口 的 VRRP 实例 都 做 出 定义 。 这 里 请 注 
意 “virtual_router_id” 这 个 参数 ， 在 照搬 vrrp_instance 代码 块 中 的 代码 
时 ， 请 注意 不 要 忘记 替换 相关 的 参数 。 因 为 VRRP 实例 是 根据 
Virtual_router_id 区 分 的 ， 所 以 请 为 每 个 实例 指定 一 个 独一无二 的 值 。 


代码 清单 1.4.2 VRRP 的 设 定 @ (〈]lvl 的 示例 ) 


vrrp_sync_ group VG { 
group { 
VE 
VI 
} 
} 
vrrp_instance VE { 
state MASTER 
interface eth6 
garp_master delay 5 
virtual_router_id 266 < 为 每 个 VRRP 实 例 指 定 独 一 无 二 的 值 
priority 161 “1v2 中 修改 为 168 
advert int 1 
authentication { 
auth_type PASS 
auth_pass HIMITSU 
} 
virtual ipaddress { 
10.0.0.254/24 dev eth0 


} 


} 

vrrp_instance VI { 
state MASTER 
interface eth1 


garp_master delay 5 
virtual_router_id 261 < 每 个 VRRP 实 例 独 一 无 二 的 值 
priority 161 «lv2 中 请 将 这 里 修改 为 166 
advert int 1 
authentication { 
auth_type PASS 
auth_pass HIMITSU 
} 
virtual ipaddress { 
192.168.6.254/24 dev eth1 
} 
} 


同步 VRRP 实例 


代码 块 vrrp_sync_group 是 为 了 实现 多 个 VRRP 实例 的 状态 的 同步 所 需 


要 进行 的 设 定 。 例 如 ， 在 对 外 实例 (VE) 作为 备用 节点 的 情况 下 ， 它 
所 联动 的 对 内 实例 (VI) 也 需要 是 备用 的 。 这 样 在 lv1 中 无 论 eth0 或 
ethl 哪 边 的 网 线 出 现 异 常 ， 也 都 能 够 准确 地 执行 故障 转移 。 


1.4.6 ”keepalived 的 应 用 


之 前 我 们 对 使 用 keepalived 的 VRRP 功能 来 实现 故障 转移 的 详情 进行 了 
说 明 。 


根据 需求 的 不 同 ，keepalived 还 有 其 他 使 用 方法 。 比 如 在 1.1 节 的 图 
1.1.6 的 拓扑 结构 中 ， 如 果 使 用 keepalived 的 话 ， 搭 建 起 来 应 该 就 能 更 加 
方便 安全 。keepalived 中 还 附带 一 个 --vPrp 选项 ， 据 此 可 以 独立 地 使 用 
VRRP 功能 。 读 者 可 以 先 从 搭建 简单 的 见 余 SMTP 服务 器 开始 ， 逐 步 加 
深 对 元 余 的 理解 。 


第 2 章 优化 服务 器 及 基础 设施 的 
拓扑 结构 一 宛 你、 负载 分 流 、 高 
性 能 的 实现 


2.1 引入 及 同人 代理 一 一 Apache 模块 
2.1.1 反问 代理 入 门 


第 1 章 通过 引入 负载 均衡 器 ， 实 现 了 Web 服务 器 的 负载 分 流 。 因 为 
IPVS (LVS) 等 负载 均衡 器 只 在 第 四 层 传送 分 组 ， 因 此 在 该 拓扑 结构 
中 ，Web 服务 器 依然 直接 应 答 从 客户 端 应 用 软件 发 来 的 请 求 。 


通过 在 负载 均衡 器 与 Web 服务 器 之 间 加 入 被 称 为 反问 代理 (Reverse 
Proxy) 的 服务 器 ， 可 以 实现 更 具 弹 性 的 负载 分 流 。 反 同 代 理 可 通过 
Apache 的 mod_proxy、mod_proxy_balancer 模块 进行 搭建 。 除 Apache 
外 ， 也 可 使 用 lighttpd 或 Squid( 稍 后 讲解 〉 来 进行 搭建 。 


反 回 代理 从 客户 端 取 得 请 求 〈 必 要 的 话 并 加 以 处 理 ) ， 将 该 请 求 转发 到 
适当 的 Web 服务 嚣 。Web 服务 需 收 到 请 求 后 会 像 平时 一 样 进行 处 理 ， 
并 将 结果 返回 反 回 代理 。 反 同人 代理 获取 结果 后 ， 再 将 该 处 理 结 果 的 应 答 
返回 到 客户 端 。 


如 图 2.1.1， 反 辐 代 理 的 工作 即 为 在 客户 端 与 Web 服务 器 之 间 建 立 起 类 
似 代理 的 机 制 。 一 般 的 代理 是 代理 处 理 LAN ~” WAN 的 请 求 ， 而 反 向 
代理 则 是 代理 处 理 WAN -LAN 的 请 求 ， 因 此 才 被 称 为 “ 反 

问 ” (Reverse) 。 


全 请 玉 


@ 响应 


图 2.1.1 反问 代 理 


使 用 反问 代理 ， 通 过 客户 端 请 求 ， 可 以 将 网 页 的 不 同 元 素 分 配 到 不 同 的 
服务 嚣 专项 处 理 ， 下 面 列举 了 反问 代理 的 具体 功能 : 


。 根据 HTTP 请 求 的 内 容 来 控制 系统 的 行为 (与 七 层 交 换 机 的 作用 


类 似 ) 

。 优化 系统 整体 的 内 存 使 用 率 

。 缓存 Web 服务 器 的 应 答 数 据 

。 使 用 Apache 模块 控制 处 理 规则 
以 下 依次 进行 讲解 。 
2.1.2 根据 HITP 请 求 的 内 容 来 控制 系统 的 行为 
因为 IPVS 位 于 第 四 层 ， 所 以 无 法 根据 客户 端 所 需要 的 HITP 请 求 的 内 
容 进行 处 理 的 分 配 。 而 如 果 在 此 引入 有 反 癌 代理， 那么 根据 HTTP 请 求 内 
的 网 址 信息 : 

。 端 请 求 的 网 址 为 /images/logo.jpg， 则 分 配 到 图 片 专用 的 服 


。 后 客户 端 请 求 的 网 址 存在 news， 则 分 配 到 生成 动态 内 容 的 Web 
服务 器 上 


即 可 将 处 理 分 配 到 不 同 的 服务 器 上 进行 (图 2.1.2) 。 


处 理 动态 内 容 的 
/news .ooo Web 服务 器 


全 本 
de 
de 


客户 端 反 向 代理 机 


mages/logo.jpg 两 片 服务 器 
S 尽力 


图 2.1.2 反 向 代理 
使 用 Apache 搭建 反 同 代理 的 情况 下 ， 人 处 理 的 分 配 使 用 的 是 mod_rewrite 
的 RewriteRule 功能 。 通 过 使 用 mod_rewrite 进行 控制 ， 可 以 获得 很 多 强 
大 的 功能 ， 例 如 : 

。 查看 客户 端 IP 地 址 ， 仪 允许 特定 的 IP 地 址 访问 服务 器 


。 通过 查看 客户 端的 User-Agent 《用户 代理 ) ，Web 服务 器 可 根据 
客户 端的 User-Agent 对 客户 疹 返 回合 适 的 数据 


。 将 /hoge/foo/bar 修改 为 /hoge?foo=bar， 再 请 求 Web 服务 器 
以 上 功能 应 该 在 哪里 使 用 呢 ? 以 下 将 进行 说 明 。 
根据 IP 地 址 进行 控制 
通过 IP 地 址 进行 控制 可 以 屏蔽 来 自 恶 意 主 机 的 请 求 。 此 外 ， 在 包含 面 
问 管 理 人 员 的 页 面 的 网 站 中 ， 也 可 同时 通过 卫 地 址 及 网 址 进行 控制 ， 
以 限制 管理 人 员 的 页 面 仅 能 通过 特定 的 卫 进行 访问 。 
根据 User-Agent 进行 控制 


User-Agent 的 控制 是 为 了 应 对 Googlebot、Yahoo! Slurp 等 搜索 引擎 机 器 
人 “(Web Spider， 也 称 蜘 蛛 ) 而 存在 的 。 


比如 ， 假 设 在 面向 用 户 的 网 页 中 存在 难以 缓存 的 动态 页 面 〈 根 据 用 户 显 


示 用 户 名 的 页 面 等 ) ， 而 面向 搜索 引擎 机 器 人 则 没有 必要 显示 这 些 内 
容 ， 那 该 页 面 束 可 以 被 缓存 。 通 过 查看 User-Agent 的 信息 ， 若 是 搜索 引 
擎 机 器 人 的 User-Agent， 则 可 以 直接 经 由 缓存 服务 器 来 处 理 该 请 求 。 


网 址 的 重 写 


为 了 使 网 站 整体 的 层级 结构 更 清晰 ， 我 们 有 必要 使 网 址 让 用 户 看 起 来 更 
简 活 明了 。 原 本 客户 端的 网 页 浏览 器 需要 文 持 动态 网 页 ， 实 现 “ 酯 网 
址 ”1 后 ， 在 不 支持 动态 网 页 的 旧版 浏览 器 中 也 可 浏览 该 网 页 。 这 是 因为 
在 反 同 代理 中 ， 对 该 网 址 进行 了 分 解 重 写 ， 使 得 旧版 浏览 器 能 够 识别 这 
些 伪 静态 〈 将 动态 网 址 重 写 为 静态 ) 的 网 址 。 在 旧版 浏览 器 提交 此 类 链 
接 时 ， 将 伪 静 态 的 网 址 请 求 首 移 提 交 给 反问 代理 ， 由 反 回 代理 将 伪 静 态 
的 网 址 修改 为 动态 网 址 后 ， 再 发 给 动态 服务 器 进行 处 理 。 


1 例如 比 起 http://b.hatena.ne.jp/bookmark.cgi?user=naoya&tag1=perl&tag=2=cpan 这 样 的 网 

址 ，http://b.hatena.ne.jp/naoya/perl/cpan 这 样 的 网 址 更 加 简洁 整齐 、 更 酷 ， 所 以 称 为 酷 网 址 。 详 
情 请 参考 以 下 链接 。 

URL http:/www.w3.org/ProviderStyle/URI.html 


2.1.3 ”优化 系统 整体 的 内 存 使 用 率 


在 返回 动态 内 容 的 Web 服务 器 中 一般 称 其 为 AP 服务 器 ) ， 通 常会 将 

应 用 程序 和 常 驻 在 内 存 中 ， 以 避免 在 启动 应 用 程序 时 产生 间接 性 能 成 本 
(Overhead) 。 例 如 用 Java 编写 的 程序 ， 初 次 局 动 确 实 很 花 时 间 ， 知 初 

次 启动 束 第 驻 内 存 ， 以 后 即 可 省 去 启动 浪费 的 时 间 。 在 Perl 或 PHP 

中 ， 通 过 将 mod_perl、mod_php 模块 部 团 到 Web 服务 器 ， 即 可 加 快 应 

用 软件 的 速度 ， 这 与 上 述 常 驻 内 存 的 原理 相同 。 在 FastCGI 中 ， 也 大 致 

使 用 了 同样 的 原理 实现 应 用 的 加 速 。 


在 AP 服务 需 加 速 时 ， 需 要 大 量 的 内 存 空间 。 与 只 返回 静态 内 容 的 Web 
服务 器 相 比 ， 返 回 动态 内 容 的 AP 服务 器 通常 需要 消耗 数 倍 甚 至 数 十 倍 
的 内 存 空间 。 


一 般 AP 服务 器 在 处 理 客 户 端的 单个 请 求 时 ， 会 将 其 分 配 到 单个 进程 或 
单个 线程 进行 处 理 。 在 进程 /线程 中 ， 各 进程 /线程 之 间 都 是 独立 运行 

的 。 这 样 应 用 软件 的 开发 人 员 在 开发 时 就 无 需 考虑 资源 冲突 的 问题 ， 应 
用 软件 的 设计 也 就 更 简单 了 。 


然而 另 一 方面 ， 在 AP 服务 器 对 单个 请 求 使 用 单个 进程 /线程 来 应 答 
时 ， 若 需 返 回 图 片 及 JavaScript、CSS 等 静态 内 容 ， 即 原样 返回 文件 中 
I 类 文件 分 配 到 静态 服务 器 进行 处 理 ， 以 降低 AP 服务 
妖 的 人 负载。 


例 : 动态 页 面 中 的 请 求 详情 


假设 在 一 个 动态 生成 的 HTML 页 面 中 使 用 了 30 张 图 片 。 就 像 和 4Hatena” 网 
站 的 主页 “一样 。 该 页 面 是 动态 生成 的 。 


| 2 URL http://www.hatena.ne.jp/ 


在 对 该 页 面 的 请 求 中 ， 只 有 初次 请 求 动 态 生 成 了 HTML 页 面 ， 客 户 端 
的 浏览 器 下 载 了 该 页 面 。 浏览 器 将 此 HTML 解析 后 ， 向 服务 器 请 求 了 
需要 的 图 片 及 脚本 文件 ， 共 计 1 个 动态 请 求 +30 个 静态 请 求 。 


一 一 所 有 内 容 均 由 AP 服务 器 应 答 的 情况 

1+30 个 请 求全 由 AP 服务 器 进行 应 答 的 情况 下 ， 虽 然 大 部 分 都 是 返 
回 静 态 的 内 容 ， 但 为 了 处 理 这 唯一 一 个 动态 的 请 求 ， 其 余 30 个 静 
态 请 求 的 应 答 也 会 受到 拖累 ， 消 耗 大 量 的 内 存 。 这 是 因为 图 片 及 动 
态 内 容 的 每 个 请 求 都 需要 一 个 进程 / 线程 进行 应 答 (图 2.1.3) 。 


请 求 动态 内 容 ”请 求 静态 内 容 


且 全 合 信 全 全 全 
AP 服务 器 


消耗 内 存 较 多 的 进程 / 线程 
图 2.1.3 所 有 的 内 容 均 由 AP 服务 器 应 答 的 情况 
一 一 分 配 到 不 同 服 务 器 的 情况 


在 此 将 处 理 分 配 到 不 同 的 服务 器 上 进行 ， 用 Web 服务 器 返回 静态 
内 容 ， 用 AP 服务 器 生成 动态 内 容 (图 2.1.4) 。 这 样 一 来 ， 静 态 内 
容 就 可 以 由 仅 消 耗 少 量 内 存 的 Web 服务 器 来 应 答 ，AP 服务 器 则 只 
对 应 用 程序 的 动态 内 容 应 答 ， 不 仅 提 高 了 系统 整体 的 内 存 使 用 率 ， 
也 提高 了 能 够 并 发 处 理 的 请 求 数 。 


图 2.1.4 分 配 到 两 台 服 务 器 的 情况 


区 由 两 台 服 务 器 分 别处 理 是 个 很 好 的 选择 ， 但 如 何 将 静态 内 容 、 动 
态 内 容 分 离 到 不 同 的 服务 器 呢 ? 这 里 就 该 请 出 反 回 代理 了 。 


o 将 images 目录 下 及 CSS 等 静态 内 容 的 网 址 交 由 Web 服务 器 
o 将 除 此 以 外 的 动态 内 容 的 网 址 交 由 AP 服务 器 


即 针对 网 址 的 内 容 修 改 分 配 的 目的 地 。 可 以 看 出 反问 代理 的 行为 就 
相当 于 七 层 交 换 机 的 处 理 。 


常常 我 们 也 会 将 反 向 代理 作为 静态 服务 占 来 使 用 (由 反问 代理 直接 
返回 静态 内 容 ， 无 需 准 备 其 他 的 服务 占 〉， 束 像 图 2.1.5 那样 将 静 
态 内 容 交 由 反 向 代理 自身 直接 返回 。 


请 求 静态 内 容 
人 
encore 
客户 端 有 反 向 代理 


请 求 动 态 内 容 


图 2.1.5 一 般 的 结构 
2.1.4” 绥 存 Web 服务 器 的 应 答 数 据 


反问 代理 分 离 出 了 AP 服务 器 ， 为 AP 服务 器 提供 了 一 个 缓冲 ， 这 是 非 
常 关键 的 一 点 。 特 别 是 要 使 用 HTTP 的 Keep-Alive 功能 时 ， 反 向 代理 的 
存在 就 显得 尤为 重要 。 


HTTP 的 Keep-Alive 


HTTP 中 有 一 个 Keep-Alive 功能 ， 在 茶 个 客户 端 一 次 性 将 多 个 内 容 从 同 
一 台 服 务 器 读 取 时 ， 经 常会 用 到 该 功能 。 以 之 前 举 出 的 显示 了 30 个 图 
片 的 HTTP 页 面 为 例 ， 通 常 每 个 HTTP 请 求 都 需要 与 服务 器 重复 进行 连 
接 、 切 断 、 连 接 .……. 的 操作 ， 处 理性 能 并 不 高 。 若 在 第 一 次 请 求 完成 后 
保持 连接 不 切断 ， 当 再 次 请 求 时 ， 直接 使 用 以 前 建立 过 的 连接 ， 即 可 实 
现 用 一 次 连接 来 处 理 更 多 的 请 求 。 


要 实现 该 功能 就 需要 使 用 Keep-Alive。 只 需 在 服务 器 中 设 定好 Keep- 
Alive， 浏 览 器 即 可 根据 HTTP 头 判 断 是 否 启 用 Keep-Alive。 局 用 时 ， 浏 
览 句 依照 Keep-Alive 的 规定 保持 与 服务 器 的 连接 ， 只 雷 一 个 连接 就 可 实 
现 多 个 文件 的 下 载 。 事 实 上 与 关闭 Keep-Alive 的 服务 器 相 比 ， 开 启 该 功 
能 的 服务 器 的 下 载 速度 明显 会 快 一 些 。 

使 用 Keep-Alive 保持 连接 时 ， 理 论 上 会 加 重 Web 服务 器 的 负载 。 具 体 
来 说 ， 从 收 到 某 个 特定 的 客户 问 的 请 求 开始 ， 在 一 定时 间 内 ， 进 程 / 线 
程 会 被 占用 以 应 答 客 户 端的 请 求 * 。 


3 lighttpd 等 采用 事件 模式 的 Web 服务 器 则 并 不 一 定 如 此 。 


例 : 内 存 消耗 与 Keep-Alive 的 开启 /关闭 


首先 从 内 存 消 耗 的 角度 来 考虑 该 情况 。 在 每 个 进程 消耗 较 多 内 存 的 AP 
服务 器 中 ， 一 台 主 机 能 启动 的 最 大 进程 数 仅 有 50 一 100 个 左右 。 若 不 
使 用 反 辐 代理 而 开启 Keep-Alive， 那 么 在 这 为 数 不 多 的 50 ~ 100 个 进 
程 中 ， 大 部 分 都 会 为 保持 Keep-Alive 的 连接 而 被 消耗 掉 (图 2.1.6) 。 


Keep-Alive 


2 
户 病 


图 2.1.6 为 保持 Keep-Alive 的 连接 而 使 进程 被 消耗 


藻 Keep-Alive 关闭 ， 从 客户 问 就 可 明显 感觉 到 浏览 速度 变 慢 。 这 不 是 我 
们 想 要 的 结果 。 


下 面 考 虑 一 下 增设 反 向 代理 的 情况 。 通 常 作 为 反 向 代理 工作 的 Web 服 
务 器 中 ， 由 于 每 个 进程 消耗 的 内 存 并 不 多 ， 一 台 主 机 可 以 启动 1,000 一 
10,000 个 进程 。 这 种 情况 下 ， 即 便 Keep-Alive 为 了 保持 连接 而 消耗 一 定 
程度 的 进程 ， 也 不 会 增 大 负载 。 然 后 ， 只 在 客户 端 与 反 向 代理 间 开 启 
Keep-Alive， 反 向 代理 与 后 端的 AP 服务 器 间 则 关闭 Keep-Alive (图 
pp 


消耗 内 存 较 少 的 进程 / 线程 


Keep-Alive 


消耗 内 存 较 多 的 进程 / 线程 


图 2.1.7 Keep-Alive 的 开启 /关闭 


这 样 即使 AP 服务 器 的 进程 数 较 少 ， 在 一 个 请 求 结束 后 也 可 立刻 应 管 别 
的 请 求 。 整 体 看 来 能 够 并 发 处 理 的 请 求 数 有 所 增加 ， 厨 吐 量 的 承载 能 力 
也 显 车 提高 了 。 因 为 反 同 代理 承担 了 与 客户 端 保持 连接 的 任务 ， 而 消耗 
i 的 AP 服务 器 则 不 用 承担 该 任务 ， 照 此 即 可 搭建 民 好 的 服务 器 
石 扑 结 爸 。 


2.1.5 ”使 用 Apache 模块 控制 处 理 规则 


在 反问 代理 使 用 Apache 搭建 的 情况 下 ， 该 反问 代理 可 以 通过 利用 
Apache 的 模块 ， 在 程序 中 控制 HTTP 请 求 的 前 端 /后 端的 行为 。 


例如 ，Apache2.2 的 源码 中 附带 了 mod_deflate 模块 ， 该 模块 可 将 网 页 
内 容 使 用 gzip 压缩 。 知 在 反 回 代理 中 使 用 此 模块 ， 就 可 以 将 后 端的 AP 
服务 器 返回 的 HTTP 应 答 进 行 压缩 ， 然 后 再 通过 反 回 代理 返回 客户 端 

(图 2.1.8) 。 同 样 ， 若 使 用 mod_ssl 模块 ， 还 可 将 AP 服务 器 返回 的 应 
答 进行 SSL 加 密 处 理 。 


一 


图 2.1.8 ”使 用 mod_deflate 模块 的 情况 

另外 ，Apache2.2 中 还 有 用 来 应 对 DoS 攻击 的 mod_dosdetector 模块 4 

， 该 模块 可 在 某 个 客户 端 发 出 过 多 请 求 时 ， 临 时 隔离 这 些 请 求 。 寿 将 其 
合理 设置 在 反 同 代理 中 ， 即 可 防止 后 端的 AP 服务 器 因 承 受过 多 的 请 求 
而 超出 负载 。 


| 4URL http://sourceforge.net/projects/moddosdetector/ 


除 Apache 外 ，lighttpd 等 第 三 方 的 模块 及 插件 也 有 很 多 ， 在 反问 代理 中 
使 用 这 些 功能 ， 同 样 会 为 生产 环境 增光 添彩 。 


增设 反问 代理 的 判断 

在 使 用 AP 服务 器 发 布 动态 内 容 的 情况 下 ， 反 问 代 理 的 存在 与 否 会 对 系 
统 的 灵活 性 产生 很 大 的 影响 。 即 使 只 有 一 人 台 主 机 ， 通 过 在 该 主机 内 同时 
运行 反 同 代理 与 AP 服务 器 ， 将 “静态 内 容 的 发 布 工 作 与 后 端 AP 服务 
器 ”分 离 进行 ， 也 可 提高 资源 的 使 用 效率 。 

所 以 真 的 找 不 到 不 增设 反 回 代理 的 理由 啊 ! 

2.1.6 ”增设 反问 代理 


以 下 对 使 用 Apache 搭建 反问 代理 的 方法 ， 以 及 所 搭建 的 反 辣 代理 的 各 
种 设 定 进行 讲解 。 
使 用 Apache 2.2 
搭建 反 向 代理 最 好 使 用 稳定 版 的 Apache 2.2? 。 另 外 ， 鉴 于 prefork 会 为 


每 个 客户 端 分 配 一 个 进程 ， 为 了 证 反 回 代理 尽 可 能 地 承受 更 多 的 并 发 
量 ， 建 议 使 用 “worker 模式 ”， 因 为 该 模式 只 需 为 每 个 客户 端 分 配 一 个 线 


程 即 可 。 
5 本 节 中 使 用 了 CentOS 4.4 和 Apache 2.2.4。 
以 worker 模式 启动 httpd 
在 Red Hat Enterprise Linux 5 及 CentOS 5 的 标准 软件 包 内 默认 附带 了 


Apache 2.2， 一 般 无 需 男 外 安装 。 在 Rad Hat 中 可 以 选择 服务 器 启动 时 
运行 的 软件 包 模 式 ， 只 需 在 /etc/sysconfig/httpd 中 加 入 一 行 : 


HTTPD=/usr/sbin/httpd.worker 


即 可 实现 以 worker 模式 启动 httpd。 

httpd.conf 的 配置 

以 下 讲解 将 Apache 作为 反问 代理 运行 所 需要 进行 的 准备 工作 。Apache 
服务 器 的 一 个 重要 特性 就 是 其 模块 化 的 结构 ， 即 DSO (Dynamic 
Shared Object， 动 态 共 享 对 象 ) 的 特性 。 

设 定 最 大 进程 /线程 数 

首先 设 定 worker 的 进程 和 线程 数 。 


StartServers 2 
MaxClients 156 
MinSpareThreads 25 
MaxSpareThreads 75 
ThreadsPerChild 25 


MaxRequestsPerChild 6 


默认 的 httpd.conf 中 全 局 指令 (Global Directives) 的 配置 如 上 所 示 ， 该 
设 定 参数 均 为 保守 值 。 因 为 我 们 希望 反问 代理 能 够 承受 较 高 的 负载 以 保 
护 后 端 服务 器 ， 因 此 可 以 多 使 用 些 系 统 资源 ， 以 确保 反 辣 代理 能 够 同时 


处 理 足 够 多 的 请 求 数 。 

以 上 需要 关注 的 参数 为 MaxClients 及 ThreadsPerChild 。 使 用 worker 
模式 的 情况 下 ，Apache 会 启动 多 个 子 进程 ， 并 在 各 个 子 进程 中 生成 多 
个 线程 ， 这 样 一 来 就 能 处 理 可 观 的 请 求 量 了 。 


此 处 的 ThreadsPerChild 控制 各 个 进程 中 的 线程 数 ， 这 里 子 进程 的 最 大 
值 《 即 子 进程 的 数量 ) 就 是 : 


MaxClients :上 ThreadsPerChild 


MaxClients 决定 了 能 够 同时 处 理 的 客户 端 访 问 总 数 。 例 如 在 前 文 那样 的 
设 定 的 情况 下 ， 即 为 


。 最 大 进程 数 : 6 
。 单位 进程 的 最 大 线程 数 : 25 
。 所 文 持 的 客户 端 并 发 数 : 6x25 = 150 


茶 安 装 有 2GB 一 4GB 的 内 存 ， 即 可 承受 1,000 ~ 10,000 左右 的 并 发 
量 。 例 如 ， 


。 最 大 进程 数 : 32 


。 单位 进程 的 最 大 线程 数 : 128 
。 所 文 持 的 客户 端 并 发 数 : 32x128 = 4096 
若 需 实现 以 上 情况 ， 可 按照 以 下 的 具体 参数 进行 设 定 : 


StartServers 2 

ServerLimit 32 < 新 增 
ThreadLimit 128 < 新 增 
MaxClients 4696 < 修改 


MinSpareThreads 25 
MaxSpareThreads 75 


ThreadsPerChild 128 < 修改 
MaxRequestsPerChild 0 


可 以 看 出 新 增 了 ServerLimit 及 ThreadLimit 这 两 个 项 目 。 


ServerLimit/ThreadLimit 的 设 定 决 定 了 最 大 进程 / 线程 数 ，MaxClients 及 
ThreadsPerChild 是 一 组 与 ServerLimit/ThreadLimit 相对 应 的 设 定 项 目 。 
为 ServerLimit 的 默认 值 是 16，ThreadLimit 的 默认 值 是 64， 所 以 在 需 


目 


要 实现 比 该 默认 值 高 的 进程 /线程 数 的 情况 下 ， 必 须 明 确 指定 这 两 个 项 


ServerLimit/ThreadLimit 与 内 存 的 关系 


然而 ， 既 然 已 经 有 MaxClients 及 ThreadsPerChild 决定 最 大 进程 / 
线程 数 ， 那 为 什么 还 要 设置 男 一 组 参数 ServerLimit 及 ThreadLimit 
呢 ? 这 是 因为 MaxClients 及 ThreadsPerChild 是 服务 器 方 有 关 动 态 
资源 消耗 的 设 定 项 目 ， 该 值 的 高 低 对 服务 器 的 资源 消耗 量 没 有 影 
啊 。 而 ServerLimit 及 ThreadLimit 则 会 影响 Apache 所 确保 的 共享 
内 存 的 大 小 。 寿 将 这 些 项 目的 设 定 值 设 定 得 比 必要 值 还 高 ， 就 会 导 
致 内 存 空 间 的 浪费 。 因 此 ， 知 进程 数 / 线程 数 的 目标 设 定 值 超过 了 
ServerLimit 16 及 ThreadLimit 64， 就 有 必要 仔细 其 酌 以 确保 合理 设 
定 。 


进程 / 线程 的 内 存 使 用 量 与 启动 的 模块 种 类 有 关 。 由 于 系统 分 配 内 

存 给 Apache 时 需要 看 具体 环境 ， 因 此 无 法 决定 该 设 定 值 。 此 处 的 

配置 仅 做 参考 。 至 于 在 实际 使 用 的 环境 中 如 何 设 定 上 限 值 ， 还 需 具 
体 评 估 进 程 / 线程 的 内 存 使 用 量 。 关 于 这 部 分 内 容 ， 我 们 将 在 第 4 

章 进 行 详 细 讲 解 。 

设 定 某 个 Web 服务 器 的 最 大 进程 / 线程 数 时 ， 应 该 确保 该 主机 在 达 
到 访问 上 限时 不 会 启用 Linux 的 SWAP 交换 区 ， 即 : 


o 系统 或 Web 服务 器 以 外 的 软件 常 驻 所 使 用 的 内 存量 
o Web 服务 器 的 进程 /线程 数 达 到 上 限时 ， 服 务 占 消耗 的 总 内 


存量 


计算 以 上 两 者 的 总 和 ， 并 兼顾 实际 可 使 用 的 内 存 总 量 进行 设 定 。 关 
ee /线程 的 内 存 使 用 量 的 方法 ， 将 在 第 4 章 详 细 讲 


Keep-Alive 的 配置 


如 前 所 述 ， 开 启 反 问 代 理 的 Keep-Alive 并 关闭 AP 服务 器 的 Keep-Alive 
是 关键 。 对 全 局 指令 做 出 如 下 设 定 即 可 开启 Apache 的 Keep-Alive。 


KeepAlive On 
MaxKeepAliveRequests 166 
KeepAliveTimeout 5 


以 上 设 定 指 示 了 下 面 的 内 容 。 
。 开启 Keep-Alive 
。 指定 Keep-Alive 所 处 理 的 最 大 请 求 数 为 100 


。 指定 Keep-Alive 的 超时 数 (KeepAliveTimeout， 与 客户 端 保 持 连 
接 的 时 间 ) 为 5 秒 * 


KeepAlive Timeout 的 默认 时 间 为 15 秒 。 在 一 般 的 Web 网 站 中 ， 应 该 可 
以 在 5 秒 内 返回 响应 ， 辱 该 值 偏 大 ， 仪 进程 /线程 的 Keep-Alive 就 会 占 
用 很 多 时 间 ， 导 致 服务 器 的 资源 被 大 量 消耗 。 所 以 将 默认 值 设 定 为 比 
15 秒 更 小 的 数字 不 会 有 什么 问题 。 


载 入 必要 的 模块 


接 下 来 应 该 配置 的 是 载 入 必要 的 模块 。 拱 建 反 回 代 理 所 需 的 基本 的 模块 
有 下 面 几 种 : 


e mod rewrite 
。 mod_proxy 


e。 mod _ proxy_http 


添加 以 上 模块 时 ， 还 需 载 入 “mod_alias” 模 块 。 


LoadModule alias module modules/mod alias.so 
LoadModule rewrite module modules/mod rewrite.so 
LoadModule proxy_module modules/mod proxy.so 


LoadModule proxy_http module modules/mod proxy_http.so 


将 这 些 模块 载 入 后 ， 即 可 使 用 RewriteRule 及 RewriteRule 中 的 Proxy、 
Alias 等 指令 。 


默认 情况 下 ，Apache 安装 包 的 httpd.conf 中 载 入 了 很 多 模块 。 由 于 载 入 
不 必要 的 模块 会 加 大 Apache 的 内 存 消耗 量 ， 因 此 请 尽量 减少 不 必要 的 
模块 的 加 载 。 


设 定 RewriteRule 


在 完成 ServerRoot 及 权限 日 志 等 的 设 定 后 6 ， 最 后 就 要 设 定 
RewriteRule 了 了， 这 是 搭建 反问 代理 的 核心 。 


6 关于 Apache 的 基本 设 定 ， 请 参考 Apache 的 使 用 手册 。 
这 里 考虑 进行 以 下 设 定 : 


。 当 访 问 /image 目录 下 的 图 片 时 ， 此 类 网 址 由 反问 代理 自身 处 理 。 
所 有 图 片 都 在 反问 代理 主机 内 的 /path/to/images/ 目录 下 存放 


。 对 /css、/js 也 做 以 上 处 理 


。 除 此 以 外 的 动态 内 容 的 处 理 ， 请 求 AP 服务 器 192.168.0.100 进行 
代理 


该 设 定 如 代码 清单 2.1.1 所 示 。 


代码 清单 2.1.1 RewriteRule 等 的 设 定 


Listen 86 
<VirtualHost *:80> 


ServerName naoya.hatena.ne.jp 


Alias /images/ "/path/to/images/" 
Alias /css/ "/path/to/css/" 
Alias /js/ "/path/to/js/" 


RewriteEngine on 

RewriteRule ^/(images|css|js)/ - [L] <@ 

RewriteRule ^/(.*)$ http://192.168.0.166/g$%1 [P,L] <*@ 
</VirtualHost> 


请 看 RewriteRule 的 内 容 。RewriteRule 将 请 求 的 网 址 进行 模式 匹配 

(Pattern Match) ， 知 匹配 成 功 ， 则 将 指示 其 做 出 相应 的 处 理 。 
RewriteRule 可 以 通过 正则 表达 式 定 义 。 在 代码 清单 2.1.1 中 ，@ 处 的 
配置 原则 是 : 


无 论 遇 到 任何 包含 /images/、/css/、/js/ 的 URL， 都 执行 匹配 的 动作 
([L] 是 RewriteRule 的 匹配 模式 在 此 结束 的 意思 ) ， 默 认 通 过 内 容 处 
理 器 (ContentHandler) 返回 内 容 


从 默认 的 内 容 处 理 占 返回 静态 文件 ， 根 据 URL 查找 啊 应 内 容 并 返回 到 
客户 端 ， 这 是 Apache 的 一 贯 动作 。 


根据 该 配置 ， 当 客户 端 发 出 请 求 时 ， 知 该 请 求 为 
/images/profile/naoya.png， 本 地 的 /path/to/images/profile/naoya.png 就 会 
被 返回 到 客户 端 。 

根据 以 上 内 容 做 出 代码 清单 2.1.1 的 多 处 的 设 定 ， 即 : 

对 全 部 URL 的 请 求 均 由 192.168.0.100 进行 代理 


如 此 便 设 定 完 毕 。 这 时 如 果 通 过 浏览 器 访问 反问 代理 所 监听 的 端口 ， 就 
会 显示 192.168.0.100 返回 的 内 容 ， 束 像 是 AP 服务 器 做 出 了 应 答 。 


2.1.7 “进一步 对 RewriteRule 进行 设置 


以 下 逐步 介绍 RewriteRule 的 设 定 例子 。 


茶 止 来 自 特 定 主机 的 请 求 


例如 ， 茶 止 来 自 特定 IP 地 址 的 请 求 ， 使 其 返回 403 错误 代码 的 设 定 如 
代码 清单 2.1.2 所 示 。 


代码 清单 2.1.2 设 定 示 例 1 


RewriteEngine on 


# 若是 192.168.6.266 的 请 求 ， 则 向 客户 端 返回 463 
RewriteCond %{REMOTE ADDR} ^192\.168\.6\.200$ 
RewriteRule .* - [F,L] 


# 反问 代理 的 设 定 
RewriteRule ^/(images|css|js)/ - [L] 
RewriteRule ^/(.*)$ http://192.168.6.166/$1 [P,L] 


在 代理 AP 服务 器 之 前 ， 通 过 进行 条 件 判 断 的 RewriteCond 查看 
REMOTE_ADDR， 即 可 对 特定 地 址 返回 403 信息 “。 


7 使 用 RewriteRule 的 标志 [FE,L]。 


对 于 来 自 搜 索引 擎 机 圳 人 的 请 求 使 用 缓存 服 务 央 


假设 使 用 Squid 等 架设 的 HTTP 缓存 服务 器 被 配置 在 192.168.0.150。 若 

想 要 针对 来 自 搜 索引 擎 机 器 人 的 请 求 进 行 特殊 配置 ， 也 就 是 对 特定 
Use -Agent 的 请 求 直 接 返 回 已 经 缓存 的 内 容 ， 可 以 如 代码 清单 2.1.3 那 
样 进行 设 定 。 


代码 清单 2.1.3” 设 定 示 例 2 


# 为 了 使 SetEnvIf 指 令 生效 ， 需 要 读 取 mod_setenvif 
LoadModule setenvif module modules/mod setenvif.so 


# 若 User-Agent 中 包括 “Yahool Slurp” 或 “Googlebot” 
# 则 环境 变量 IsRobot 为 真 

SetEnvIf User-Agent "Yahoo! Slurp" IsRobot 
SetEnvIf User-Agent "Googlebot" IsRobot 


RewriteEngine on 


# 知 环境 变量 为 真 ， 则 代理 缓存 服务 器 
RewriteCond %{ENV:IsRobot} .+ 
RewriteRule ^/(.*)$ http://192.168.60.156/$1 [P,L] 


# 除 此 以 外 的 情况 下 按照 如 下 方式 处 理 
RewriteRule ^/(images|css|js)/ - [L] 
RewriteRule ^/(.*)$ http://192.168.60.160/$1 [P,L] 


使 用 mod_setenvif 根据 User-Agent 的 文本 判断 是 否 为 来 目 搜索 引擎 机 器 
人 的 访问 ， 知 判定 确实 为 搜索 引擎 机 器 人 ， 则 代理 到 缓存 服务 器 。 


Apache 的 mod_rewrite 可 与 其 他 的 模块 等 配合 使 用 ， 实 现 弹性 化 的 强大 


设 定 。 因 此 只 要 满足 RewriteRule 摘 述 的 条 件 ， 束 总 能 分 配 到 其 他 服务 
让 
2.1.8 ”使 用 mod_proxy_balancer 向 多 台 主 机 分 流 


在 此 讨论 当 有 多 台 后 并 AP 服务 器 的 情况 下 该 永 用 哪 种 拓扑 结构 。 下 面 
有 几 个 方案 可 供 思 考 : 


@ 反 向 代理 与 AP 服务 器 总 是 成 对 配置 。 将 请 求 从 特定 代理 传递 到 特 
定 AP 服务 器 


@ 使 用 mod_proxy_balancer， 将 请 求 从 特定 反问 代理 分 配 到 多 个 AP 
服务 器 (图 2.1.9) 


全 在 反 向 代理 与 AP 服务 器 之 间 插 入 LVS 


图 2.1.9 使 用 mod_proxy_balancer 


在 上 述 内 容 中 ，@ 不 能 说 是 明智 的 选择 。 反 癌 代 理 肯 定 比 AP 服务 器 
的 资源 消耗 少 ， 而 且 也 需要 它 来 承担 那些 即使 资源 消耗 小 也 能 正常 进行 
的 工作 。 因 此 在 通常 的 系统 中 ， 出 于 对 见 余 的 考量 ， 设 置 两 台 反 向 代理 
已 经 足够 。 但 受 负载 情况 的 影响 ， 很 多 情况 下 仅 有 两 台 后 端 AP 服务 器 
是 不 够 的 。 例 如 在 本 书 执笔 时 ，Hatena 书签 8 就 是 由 两 台 反 向 代理 与 
11 台 AP 服务 器 组 成 的 拓扑 结构 。 


| 8 URL http://b.hatena.ne.jp/ 


由 于 有 反问 代理 与 AP 服务 器 的 资源 消耗 不 同 ， 寿 是 成 对 配置 ， 反 同 代 理 
方面 势必 会 造成 无 端的 资源 浪费 。 


全 中 Apache 的 mod_proxy_balancer 这 一 模块 的 作用 是 ， 在 进行 反问 代 
理 时 ， 将 请 求 通过 某 种 算法 分 配给 代理 目标 的 多 台 主 机 。 如 果 代 理 的 目 
标 主机 没有 办 法 返回 应 答 ， 则 会 启动 故障 转移 ， 使 请 求 不 会 代理 给 该 主 
机 ， 即 可 实现 代理 到 后 端的 请 求 总 是 会 分 配 到 正常 工作 的 主机 。 利 用 好 
该 模块 的 这 点 特征 是 一 个 方法 。 


为 一 个 方法 是 ， 在 反问 代理 与 AP 服务 器 之 间 插 入 LVS+keepalived， 即 
全 .这 确实 是 很 实用 的 方法 ， 根 据 笔者 个 人 的 使 用 感受 ，LVS 的 故障 
转移 功能 并 不 输 于 mod_proxy_balancer。 另 外 在 LVS+keepalived 与 


mod_proxy_balancer 的 较量 中 ，LVS+keepalived 的 情况 下 负载 分 流 的 逻 
辑 更 容易 调整 ， 而 且 也 可 以 通过 命令 行进 行 管理 ， 相 当 方 便 。 


但 LVS+keepalived 需要 事先 增加 硅 干 个 服务 器 。 以 下 以 想 要 进行 简易 
的 负载 分 流 为 例 ， 讲 解 mod_proxy_balancer 的 使 用 方法 。 


mod_proxy_balancer 的 使 用 示例 
使 用 mod_proxy_balancer 搭建 反 辐 代理 是 很 简单 的 。 


。 加载 mod_proxy_balancer 模块 3 


。 在 BalancerMember 指令 中 定义 分 流 目 的 地 的 主机 一 览 


。 对 反问 代理 进行 RewriteRule 设 定 〈 规 则 重 写 设 定 ) 。 在 此 可 使 
用 balancer://Scheme 的 形式 


9 mod_proxy_balancer 是 Apache 2.2 中 的 标准 功能 。 


假设 AP 服务 器 有 3 台 ，IP 地 址 是 192.168.0.100 ~ 102。 这 里 的 
httpd.conf 的 设 定 如 代码 清单 2.1.4 所 示 。 


代码 清单 2.1.4 通过 mod_proxy_balancer 搭建 反 向 代理 的 设 定 示例 


# 加 载 mod_proxy_balancer 模 块 
LoadModule proxy_balancer module modules/mod proxy_balancer.so 


# 定义 分 流 目的 地 的 主机 一 览 

<Proxy balancer://backend> 
BalancerMember http://192.168.6.166 loadfactor=106 
BalancerMember http://192.168.6.161 loadfactor=106 
BalancerMember http://192.168.6.162 loadfactor=106 

</Proxy> 


Listen 86 
<VirtualHost *:80> 
ServerName naoya.hatena.ne.jp 


Alias /images/ "/path/to/images/" 
Alias /css/ "/path/to/css/" 
Alias /js/ "/path/to/js/" 


# 设 定 反 向 代理 

RewriteEngine on 

RewriteRule ^/(images|css|js)/ - [L] 

RewriteRule ^/(.*)$ balancer://backend/$1 [P,L] <@ 
</VirtualHost> 


请 看 代码 清单 2.1.4。 之 前 的 例子 中 都 是 直接 写 http://192.168.0.100/$1 与 


AP 服务 器 的 网 址 ， 而 本 次 则 使 用 “balancer://Scheme ”这 种 形式 。 当 
表述 为 balancer://backend 时 ， 每 个 请 求 都 会 选择 上 层 中 定义 的 
BalancerMember 中 的 一 台 。 至 于 具体 为 哪个 服务 器 ， 则 与 
BalancerMember 中 定义 的 loadfactor 的 值 有 关 。1oadfactor 的 值 越 大 ， 则 
被 分 配 的 概率 越 高 。 像 代码 清单 2.1.4 那样 ， 设 定 loadfactor 均 为 同一 值 
的 话 ， 即 可 获得 均等 的 分 配 效果 。 


mod_proxy_balancer 中 还 存在 除 loadfactor 以 外 的 设 定 值 。 在 实际 使 用 
中 ， 应 该 根据 网 站 的 结构 设 定 合适 的 数值 。 

2.2 ”增设 缓存 服务 器 一 一 Squid、memcached 
2.2.1 引入 缓存 服务 器 


在 2.1 节 中 已 经 针对 反 同 代理 进行 了 讲解 。 接 下 来 ， 本 节 将 要 讨论 缓存 
服务 器 的 详情 。 

HTTP 与 绥 存 

在 网 络 服务 所 使 用 的 协议 中 ，HTTP 是 稀 朴 的 协议 ， 即 具有 无 状态 也 的 
属性 。 因 为 由 一 个 无 状态 的 协议 所 交换 的 文件 不 具备 状态 ， 因 此 具有 易 
绥 存 的 特性 。 所 以 在 HITP 协议 中 ， 提 供 了 非常 强大 的 缓存 机 制 |。 


10 关于 HTTP 无 状态 协议 ， 请 参考 以 下 链接 。 
URL http://baike.baidu.com/view/4551466.htm 


例如 在 Internet Explorer (IE) 或 Firefox 等 大 多 数 Web 浏览 器 中 ， 当 初 
次 访问 下 载 该 文件 时 ， 浏 览 器 会 将 其 缓存 在 本 地 ， 当 再 次 访问 时 ， 将 直 
接 从 本 地 调 出 该 文件 。 在 浏览 器 中 ， 为 了 查看 远程 文件 是 否 已 经 更 新 ， 


可 以 使 用 HTTP 头 将 换 服 务 器 与 文档 的 修改 日 期 。 
通过 Live HTTP Headers 得 知 缓存 效果 
通过 使 用 Fierfox 浏览 器 的 Live HTTP Headers 1 功能 ， 能 够 了 解 到 


HTTP 头 的 交换 情况 。 下 面 以 图 片 文件 的 交换 情况 为 例 进行 说 明 。 以 下 
为 浏览 器 癌 Web 服务 器 发 送 的 HITP 请 求 头 。 


11 URL https://addons.mozilla.org/zh-CN/?refox/addom/live-http-headers/ 


GET /images/top/h1.gif HTTP/1.1 
Host: www.hatena.ne.jp 
Keep-Alive: 366 

Connection: keep-alive 


If-Modified-Since: Wed, 19 Dec 2667 15:31:43 GMT 


If-Modified-Since 汰 中 记载 7 日 期 。 这 是 浏览 器 取得 该 文件 的 时 间 。 访 
请 求 所 得 到 的 服务 器 〈Apache) 的 应 答 为 : 


HTTP/1.x 364 Not Modified 
Date: Wed, 27 Feb 2068 86:43:31 GMT 
Server: Apache 


由 此 可 以 看 出 HTTP 的 状态 代码 为 304 (Not Modified) 。Web 服务 器 
Apache 所 进行 的 处 理 为 : 


。 取得 从 客户 端 发 来 的 -Modified-Since 的 更 新 时 间 


。 与 本 地 文件 的 时 间 进 行 比较 
。 判断 客户 并 所 保存 的 缓存 文件 是 否 需 要 进行 更 新 


在 此 并 不 会 返回 文件 ， 而 是 返回 状态 码 304， 回 文件 ， 
只 要 本 地 存在 该 文件 的 缓存 ， 就 能 显示 出 图 片 >。 据 此 


。 客户 端 可 以 省 略 从 网 上 下 载 图 片 数据 的 步骤 

。 服务 器 可 以 省 略 将 文件 传送 给 客户 端的 步 又 
以 上 就 是 使 用 HTTP 协议 的 缓存 所 达到 的 效果 。 
2.2.2 ”Squid 缓存 服务 器 
既然 客户 端 与 服务 器 有 HITP 缓存 ， 服 务 器 与 服务 器 间 应 该 也 有 类 似 
HTTP 缓存 的 方法 存在 。 不 管 主机 与 主机 间 的 关系 究竟 如 何 ， 若 两 者 的 
交换 中 有 HTTP 协议 可 用 ， 那 应 该 就 能 实现 内 容 的 缓存 。 
Squid “是 HTTP、HTTPS、FTP 等 使 用 的 开源 缓存 服务 器 。Squid 可 用 
于 任意 Web 系统 中 ， 使 其 实现 HTTP 的 缓存 功能 。 将 Squid 配置 在 使 
用 HTTP 进行 通信 的 两 点 之 间 ， 即 可 实现 缓存 。 


12 URL http://www.squid-cache.org/ 


Squid 通常 被 用 来 缓存 客户 端 从 服务 器 上 下 载 的 文件 。 例 如 大 学 或 企业 
在 LAN 网 关 配 备 了 Sdquid， 当 办 公 室 的 各 PC 访问 Internet 的 网 站 时 ， 
都 会 经 由 Squid， 即 缓存 服务 器 Squid 发 挥 了 代理 服务 器 的 功能 (图 

nh 


WAN ( Internet ) 


图 2.2.1 Squid (代理 服务 器 ) 


在 此 ， 当 某 个 客户 端 下 载 了 文件 ，Squid 就 会 缓存 它 。 当 其 他 的 客户 端 
请 求 同 样 的 文件 时 ， 将 从 缓存 中 直接 取出 该 文件 。 由 于 文件 一 旦 被 请 求 
后 ， 之 后 就 会 直接 从 缓存 中 返回 ， 因 此 无 需 每 次 都 请 求 原 始 网 页 ， 不 仅 
节约 了 网 络 带 宽 ， 因 为 从 LAN 直接 返回 数据 ， 下 载 文件 的 速度 也 会 变 
得 很 快 。 

使 用 Squid 搭建 反问 代理 

Squid 可 作为 反 向 代理 使 用 。 在 2.1 节 中 介绍 了 使 用 Apache 搭建 反 向 代 
理 的 步骤 ，S$quid 也 可 通过 类 似 的 步 又 搭建 起 反 向 代理 。 从 服务 器 负载 
分 流 的 观点 来 看 ， 这 才 是 Squid 主要 的 应 用 形式 。 


Squid 作为 反 向 代理 工作 时 ， 通 过 Squid 可 以 将 网 站 的 文件 缓存 到 Squid 
服务 器 上 (图 2.2.2) 。 


图 2.2.2 ”Squid ( 反 向 代理 ) 


。 接 到 客户 端的 HTTP 请 求 ， 就 癌 后 端 服务 右 索 取 请 求 的 
时 


。 Squid 将 服务 器 取 得 的 文件 缓存 到 本 地 


。 当 其 他 客户 端 发 出 请 求 时 ，Squid 将 确认 缓存 的 有 效 性 ， 若 缓存 
有 效 ， 束 将 文件 从 缓存 直接 返回 到 客户 端 


。 如 条 短 时 间 内 有 10,000 个 客户 端 请 求 同 一 文件 ， 则 后 端 服务 右 
( 若 文 件 可 被 缓存 ) 只 对 第 一 次 请 求 做 出 响应， 其 余 9,999 个 请 


求 均 由 Squid 的 缓存 返回 


Squid 内 部 的 存储 融 专 为 缓存 设计 ， 速 度 非常 理想 ， 而 且 Squid 可 以 以 
较 小 的 资源 消耗 处 理 大 规模 的 请 求 。 大 多 数 情况 下 ， 与 从 后 端 服务 器 返 
人 
载 。 


Squid 不 仅仅 只 是 缓存 HITP 的 内 容 ， 也 可 以 通过 网 络 和 其 他 的 Squid 
服务 器 共享 缓存 。 使 用 该 功能 时 ， 返 回 缓存 的 Squid 服务 器 在 负载 升 高 
pe 
类 似 的 。 


Squid 缓存 什么 


Squid 是 以 HITP 协议 的 绥 存 功能 为 前 提 的 缓存 服 务 器 。 因 此 绥 存 
HTTP 文件 、CSS 样式 表 、JavaScript 脚本 、 图 片 等 静态 内 容 是 很 明智 的 
和 
最 近 的 内 容 。 


动态 的 内 容 要 如 何 处理 呢 ? Squid 拥有 非常 灵活 的 缓存 命令 ， 例 如 针对 
某 个 动态 页 面 设置 其 只 缓存 30 分 钟 也 没 问题 。 


基于 HTTP 协议 进行 缓存 ， 也 就 是 把 URL 作为 Key 来 缓存 内 容 。 即 每 
个 URL 对 应 一 个 缓存 文件 ， 以 此 存储 缓存 数据 。 


但 问题 是 动态 页 面包 含有 状态 信息 。 例 如 在 Web 应 用 软件 的 页 面 头 中 
很 多 都 会 显示 账户 名 等 。 一 般 该 情况 可 通过 Cookie 会 话 管理 来 实现 。 
最 终 即 使 是 同一 URL， 根 据 用 户 的 不 同 所 输出 的 信息 也 不 同 。 


香 不 小 心 将 所 有 这 样 的 动态 文件 都 进行 了 缓存 ， 如 缓存 了 “欢迎 A 先 
生 ” 这 样 的 信息 ， 那 么 当 B 先生 访问 同一 URL 时 ， 就 会 取 用 A 先生 的 
缓存 信息 ， 对 B 先生 输出 “欢迎 A 先生 * 这 样 的 信息 。 这 是 缓存 中 会 发 
生 的 代表 性 问题 (图 2.2.3) 。 


Oa 加 hatena_rnejp © 四 li 人 Es 
过 Hatena 园 Myiistena Setings Engish 


My Hatena > Setings 


图 2.2.3 不 该 缓存 的 内 容 


动态 页 面 中 ， 每 个 用 户 的 行为 都 会 造成 页 面 内 容 的 改变 ， 如 果 要 将 
URL 作为 Key 来 缓存 这 些 文 件 的 话 ， 在 HITP 协议 下 是 很 难 实现 的 。 
首先 ， 在 基于 HITP 协议 的 缓存 中 ， 通 第 都 是 无 状态 的 内 容 交 换 ， 而 在 
通常 使 用 的 Cookie 的 会 话 管理 中 ， 无 状态 的 协议 则 会 被 加 入 “状态 ”， 

即 变 成 有 状态 的 通信 。 这 有 人 悖 于 协议 所 要 求 的 前 提 条 件 ， 因 此 在 该 协议 
所 文 持 的 缓存 机 制 中 就 会 产生 矛盾 。 


希望 使 用 绥 存 来 减轻 负载 ， 但 又 无 法 应 用 HTTP 协议 级 别 的 缓存 ..……. 在 
此 情况 下 ， 可 以 在 应 用 软件 的 内 部 ， 例 如 在 数据 库 〈Database) 中， 将 
记录 的 对 象 以 对 象 为 单位 进行 缓存 ， 以 这 种 方式 来 解决 问题 的 话 ， 绥 存 
内 容 的 粒度 要 比 平 时 细 。 由 于 粒度 变 细 ， 因 此 将 不 选择 Squid 这 种 以 更 
大 粒度 为 对 象 的 缓存 服务 器 ， 仅 会 选择 适合 该 粒度 的 缓存 服务 器 。 后 文 
中 提 到 的 “memcached” 就 是 一 个 例子 。 


总 之 ， 在 可 以 缓存 整个 页 面 的 情况 下 ， 使 用 Squid 是 比较 明智 的 选择 。 
Squid 的 设 定 示例 


以 下 对 将 Squid 作为 反 回 代理 使 用 时 的 设 定 示例 进行 介绍 。 


在 将 Squid 作为 反 辣 代理 使 用 的 情况 下 ， 可 以 使 用 多 种 拓扑 结构 ， 本 文 
选择 的 结构 是 将 Squid 插入 反 向 代理 (通过 Apache 构建 的 ) 与 AP 服务 
器 中 则 (图 2.2.4) 。 在 到 达 存 有 原始 内 容 的 后 端 AP 服务 嚣 之前， 反问 
代理 将 经 由 Apache ”> Squid 两 处 。 为 了 实现 分 流 与 见 余 ， 需 要 准备 两 
台 Sqguid， 并 共享 绥 存 。 


通过 mod_proxy_balancer 或 LVS 
向 两 人 台 Squid 进行 分 配 


qd 1 
192.168.0.151 


图 2.2.4 将 Squid 作为 反 向 代理 使 用 的 例子 

代码 清单 2.2.1 是 将 后 端 服 务 器 返回 的 内 容 缓存 30 分 钟 ， 这 里 的 缓冲 行 
为 不 会 识别 内 容 具 体 是 静态 还 是 动态 。Squid 的 设 定 文件 squid.conf 如 
代码 清单 2.2.1 所 示 。 


代码 清单 2.2.1 squid.conf 的 设 定 示例 


http_port 86 cSquid 的 端口 为 88 存 有 原始 内 容 的 服务 器 是 后 端 服 务 器 
cache_ peer 192.168.6.166 parent 86 6 no-query originserver «<(192.168.0.1060: 
cache_peer 192.168.6.151 sibling 86 3136 <* 子 邻居 的 (sibling)Squid 是 192.168.6. 


http_access allow all < 从 所 有 的 服务 器 都 可 访问 (由 于 在 局 域 网 内 ， 因 此 无 需 限制 访问 ) 
cache dir coss /var/squid/coss 8666 block-size=512 max-size=524288 < 绥 存 存 从 


refresh _ pattern .36 26% 3666 < 缓存 3 分钟 ※2 
client persistent_connections off «<4 


| < 将 Keep-Alive 的 连接 保持 设 为 无 效 ※3 


server persistent connections off <] 


icp_query_timeout 26686 “将 确认 兄弟 缓存 是 否 存在 的 超时 时 间 设 为 2006ms 


※1 coss 是 Squid 的 缓存 存储 器 的 一 种 ， 是 现在 可 使 用 的 存储 器 中 最 快 的。 具体 请 参考 Squid 手 


册 。 


※2 Squid 的 缓存 控制 由 refresh_pattern 进行 。 由 于 篇 幅 原 因 ， 这 里 省 略 了 对 refresh_pattern 的 讲 
解 。 在 squid.conf 中 有 详细 说 明 。 


※3 关于 Keep-Alive 的 无 效 化 ， 请 参考 2.1 节 。 


2.2.3 ”使 用 memcached 进行 绥 存 


Squid 的 优点 在 于 可 以 使 用 HITP 协议 将 文件 进行 缓存 。HITP 协议 是 
无 状态 的 可 扩展 协议 ，Squid 也 同样 是 可 扩展 的 ， 而 且 不 受 应 用 软件 的 


结构 等 的 影响 。 


像 之 前 提 到 的 那样 ， 很 多 情况 都 不 适合 用 HTTP 级 别 的 缓存 。 在 Web 
应 用 程序 的 世界 中 ， 可 以 使 用 缓存 服务 器 ， 根 据 应 用 程序 内 部 使 用 的 数 
据 粒 度 来 管理 缓存 。memcached 3 就 是 其 中 一 例 。 


13 URL http:/www.danga.com/memcachedy/ 


memcached 是 用 C 语言 写 的 应 对 高 速 网 络 分 流 的 缓存 服务 器 ， 所 用 的 存 
储 器 其 实 是 系统 的 内 存 。 服 务 絮 启动 memcached， 通 过 使 用 专用 的 客户 
端 库 与 服务 器 进行 通信 ， 可 以 取得 并 保存 编程 语言 中 规定 的 对 象 。 客 户 
端 库 已 经 针对 不 同 的 语言 ， 发 布 了 与 其 对 应 的 客户 端 库 ， 不 仅 限 于 C 语 
言 、C++、Java、Perl、Ruby、PHP、Python， 现 今 流 行 的 语言 几乎 都 获 
得 了 文 持 。 


memcached 是 由 程序 内 部 使 用 的 。 在 程序 内 部 ， 虽 然 经 常会 将 特定 数据 
缓存 在 文件 中 ， 或 者 缓存 在 本 地 内 存 中 ， 但 有 时 也 会 希望 将 其 缓存 在 网 
络 上 的 服务 器 中 。memcached 就 提供 了 这 类 问题 的 解决 方案 。 


在 此 我 们 不 做 过 于 详尽 的 讲解 ， 以 下 仅 以 简单 的 Perl 脚本 为 例 对 其 使 用 
情况 做 一 个 大 概 的 介绍 。 代 码 清单 2.2.2 是 一 个 简单 的 程序 ， 所 做 的 处 
理 仅仅 是 取得 数组 对 象 并 将 其 保存 在 缓存 服务 硕 中 。 


代码 清单 2.2.2 的 执行 结果 是 : 


% perl memd.pl 


256 


代码 清单 2.2.2”memcached 的 使 用 示例 


#!/usr/bin/env perl 
use strict; 
use warnings; 


use Cache: :Memcached; 


## 将 192.168.6.1:11211 中 运行 的 memcached 作 为 缓存 服务 器 
my $memcached = Cache: :Memcached->new({ servers => [ '192.168.060.1:11211' ] 


my $object = [ 1, 2, 4, 16, 256 ]; 


## 将 对 象 通过 'object1' 保 存 
$memcached->set( 'object1' => $object ); 


## 将 对 象 从 缓存 中 获取 
my $cached = $memcached->get('object1'); 


printf "%d\n", $cached->[4]; 


ee 的 数组 对 象 ， 可 以 确认 确实 已 经 准确 恢复 到 了 以 前 的 


由 于 memcached 是 以 (key,value) 键 值 对 进行 存储 的 ， 不 管 对 象 是 否 
为 依赖 于 语言 的 对 象 ， 都 能 够 被 保存 〈 进 行 序列 化 并 保存 ) 。 只 要 知道 
key， 就 可 以 从 别 的 程序 中 取得 那个 缓存 。 


memcached (根据 所 装载 的 客户 端 库 ) 存在 抗 障碍 性 。 寿 某 特 定 的 主机 
运行 的 memcached 宕 机 ， 客 户 端 库 会 感知 其 问题 ， 从 而 避免 将 该 服务 
器 作为 缓存 服务 器 使 用 。 


2.3 MySQL 同步 发 生 故 障 时 的 快速 恢复 
2.3.1 万 一 数据 库 服务 器 停止 

大 多 数 情 况 下 ， 数 据 库 会 存放 默认 用 户 的 信息 等 服务 运行 所 必需 的 数 
据 。 因 此 数据 库 万 一 宕 机 或 发 生 故 障 ， 就 很 可 能 会 产生 能 够 直接 导致 服 
务 停止 的 严重 故障 ， 进 而 引起 更 严重 的 问题 。 


本 节 将 介绍 在 数据 库 服 务 器 俘 止 工作 的 情况 下 ， 使 数据 库 尽 快 恢复 正 季 
运行 所 采取 的 步 又。 


导致 数据 库 停 止 的 原因 

导致 数据 库 集 止 的 原因 有 很 多 ， 例 如 下 面 几 项 : 
。 数据 库 服务 器 的 进程 mysqld) 异 币 纺 
。 做 盘 空 间 已 满 

。 侯 盘 故 障 

。 服务 器 电源 故障 


一 般 在 mysqld 异常 结束 的 情况 下 ， 和 重启 mysqld 就 能 解决 ;在 磁盘 空间 
己 满 的 情况 下 ， 将 不 使 用 的 数据 或 文件 删除 以 腾 出 空间 即 可 。 


男 外 在 人 磁盘 或 电源 等 便 件 发 生 故 障 的 情况 下 ， 修 复 该 故障 往往 要 花 一 些 
时 间 。 因 为 从 蔡 换 故障 硬件 到 配置 服务 器 等 修复 工作 往往 要 人 花费 一 些 时 
间 ， 知 磁盘 发 生 了 故障 ， 则 其 后 的 数据 恢复 工作 也 需要 时 间 。 


短 时 间 内 恢复 的 办 法 


0 0 0 
2 


假设 有 两 台 完 全 相同 的 数据 库 服务 器 ， 当 一 台 因 硬件 故障 无 法 使 用 时 ， 
可 立刻 切换 到 另 一 台 。 在 此 需要 准备 两 台 服 务 硕 ， 其 中 人 硬件 及 软件 的 结 
构 和 设置 都 相对 比较 简单 ， 问 题 就 剩 下 "数据库 的 数据 ”了 。 


这 里 登场 的 是 同步 (Replication〉 这 种 手段 (图 2.3.1) 。 一 般 同 步 是 
指 ， 将 数据 实时 复制 同步 到 其 他 位 置 的 数据 库 。 这 里 主要 是 通过 LAN 
或 Internet 等 网 络 ， 将 存在 物理 性 差异 的 服务 器 间 的 数据 进行 同步 ， 即 
将 不 同 服务 器 的 数据 库 更 新 至 一 致 。 


图 2.3.1 同步 


忌 之， 只 要 准备 两 台数 据 库 服务 器 并 同步 其 数据 ， 当 一 台 发 生 故 障 时 就 
能 实现 短 时 间 内 恢复 数据 库 服务 妆 。 以 下 将 介绍 MySQL 的 同步 功能 的 
特性 与 同步 结构 。 


14 为 了 尽 可 能 地 不 让 服务 器 发 生 灾难 性 后 果 ， 可 以 使 用 RAID 提高 单 位 服务 器 的 可 重度 ， 使 其 

运作 更 加 稳定 。 另 外 ， 使 用 配备 了 Write Cache 的 硬件 RAID， 还 可 提高 高 写 入 性 能 ， 可 以 说 是 
一 石 二 鸟 。 但 请 留意 ， 根 据 产品 的 不 同 ， 有 时 不 配备 BBU (Battery Backup Unit) 的 话 就 不 能 
使 用 Write Cache 的 功 角 能 。 


2.3.2 MySQL 的 同步 功能 的 特性 和 注意 点 

首先 介绍 MySQL 同步 的 特性 。 本 市 所 使 用 的 MySQL 版 本 为 5.0.45。 
单 主 与 多 从 

主 (Master) 指 的 是 接收 客户 端 发 出 的 修改 与 查询 两 种 类 型 的 语句 的 服 


务 器 ;从 (Slave) 指 的 是 不 接收 客户 端 发 出 的 更 新 请 求 ， 仅 通过 与 
Master 的 联动 来 进行 数据 的 更 新 的 服务 器 。 


MySQL 的 同步 架构 中 ， 提 供 服务 的 有 1 台 Master 与 多 台 Slave ( 单 
pn 


站 


主 、 多 从 


如 果 存 在 多 个 Master， 甚 至 需要 在 这 些 Master 之 间 互 相同 步 数 据 的 

话 ， 这 样 的 多 主 结构 是 不 支持 的  。 另 外 因为 可 以 存在 多 台 Slave， 所 
以 可 以 将 包含 有 SELECT 内 容 的 查询 语句 分 发 到 多 台 Slave 进行 处 理 以 
提高 性 能 。 详 细 介 绍 请 参考 2.4 节 。 


5 但是， 通过 分 离 更 新 表 或 记录 的 空间 等 ， 多 主 结构 的 应 用 也 是 没 问题 的 。 


异步 数据 同步 
MySQL 文 持 “异步 数据 同步 。 


所 谓 异 步 ， 是 指 系统 更 新 到 Master 的 内 容 并 不 一 定 会 即时 地 反映 到 
Slave〈 存 在 啊 应 的 时 间 间 隔 ) 。 


虽说 也 存在 支持 复制 同步 的 RDBMS， 但 同步 与 异步 各 有 优 缺 ， 并 不 能 
简单 地 说 束 优 妥 劣 。 


被 同步 的 数据 内 容 


MySQL 是 通过 “SQL 语句 ”进行 同步 数据 的 。 例 如 有 一 条 UPDATE 语 
句 ， 那 么 无 论 该 语句 更 新 的 内 容 是 1 项 还 是 100 万 项 ， 由 Master 传 至 
Slave 的 也 仪 有 一 条 UPDATE 语句 。 


该 方式 使 Master 与 Slave 之 则 只 需 交 换 较 少 的 数据 就 能 完成 同步 。 但 寿 
在 执行 时 同步 了 无 效 的 查询 语句 〈 即 不 能 返回 正确 结果 的 查询 ) ， 则 
Master 与 备份 的 Slave 数据 就 可 能 会 存在 差异 。 


例如 在 修改 类 的 语句 中 ， 若 LIMIT 语句 没有 使 用 ORDER BY，Master 
数据 库 中 LIMIT 语句 所 选择 的 行 与 Slave 数据 库 中 所 选择 的 可 能 会 存在 
差异 。 因 此 ，Master 数据 库 与 Slave 数据 库 中 就 会 有 不 同 的 行 被 更 新 。 
该 问题 有 一 点 非常 致命 ， 那 就 是 不 会 察觉 到 数据 已 经 出 现 了 差异 。 如 果 
幸运 的 话 ， 在 同步 时 会 因 违 反 UNIQUE 等 的 规则 而 出 现 错误 并 停止 ， 


这 时 就 可 能 会 觉察 到 ; 大 是 谁 都 没有 察觉 到 异常 ， 则 很 有 可 能 存在 数据 
不 同步 的 危险 。 


SQL 的 同步 语句 还 存在 一 些 其 他 的 潜在 问题 ， 这 些 问题 暂时 都 没有 公认 
的 解决 办 法 ， 因 此 最 好 不 要 提交 会 出 错 的 得 询 。 


在 MySQL 5.1.5 以 后 的 版 本 中 ， 由 于 可 以 使 用 “以 行为 单位 的 同步 功 
能 ”所 以 该 问题 得 以 解决 。 在 以 行为 单位 的 同步 中 ，Master 数据 库 中 
被 实际 更 新 的 行 数据 会 被 同步 ， 因 此 无 需 使 用 前 述 的 LIMIT 语句 ， 也 
避免 了 在 执行 时 无 从 得 知 结果 的 问题 。 

在 MySQL 5.1.8 中 还 增加 了 “混合 模式 ”。 该 模式 一 般 以 SQL 语句 为 单 
位 进行 同步 ， 根 据 情况 的 不 同 还 可 以 以 行为 单位 来 执行 同步 操作 。 
2.3.3 ”同步 的 结构 

接 下 来 从 以 下 几 点 来 讲解 同步 的 结构 。 

e。 LO 线程 与 SQL 线程 

。 二进制 日 志 与 中 继 日 志 

。 位置 信息 

Slave 的 LO 线程 与 SQL 线程 


为 了 实现 同步 ，Slave 中 设置 了 两 个 线程 同时 工作 ， 即 “TO 线 
程 ” 与 “SQL 线程 ”。 


IO 线程 是 将 从 Master 得 到 的 数据 (更 新 日 志 )〉 放 到 被 称 为 中 继 日 志 的 
文件 中 进行 记录 的 。 男 一 方面 ，SQL 线程 则 是 将 中 继 日 志 读 取 并 执行 查 


询 。 


为 何 要 分 为 两 个 线程 呢 ?” 这 是 为 了 降低 同步 的 延 运 。 如 末 将 IO 与 SQL 
线程 的 工作 只 分 配给 一 个 线程 ， 且 SQL 的 处 理 叉 很 花 时 间 ， 那 么 在 处 
理 SQL 语句 期 间 是 无 法 从 Master 复制 数据 的 。 为 了 避免 这 样 的 事态 ， 
应 该 将 其 工作 分 担 给 两 个 线程 。 


二 进 制 日 志 与 中 继 日 志 


Master 中 会 生成 “< 二进制 日 志 ”(The Binary Log) ，Slave 中 会 生成 “中 
继 日 志 ”(Relay Log) 。 


二 进 制 日 志 中 只 记录 修改 数据 的 语句 ， 而 不 记录 查询 类 (不 对 数据 库 进 
行 改动 ) 的 语句 。 另 外 ， 二 进 制 日 志 除 了 被 用 于 同步 之 外 ， 还 可 被 用 于 
保存 备份 中 更 新 的 内 容 。 但 由 于 二 进 制 日 志 不 是 文本 格式 ， 无 法 直接 打 
开 查 看 ， 需 要 在 命令 行 下 使 用 mysqlbinlog 将 其 转换 为 文本 格式 。 
中 继 日 志 是 指 ，Slave 的 IO 线程 在 从 Master 获取 更 新 日 志 (记录 了 修 
改 类 语句 所 请 求 的 数据 ) 后 ， 将 其 保存 在 Slave 上 。 因 此 其 内 容 与 二 进 
制 日 志 相 同 。 与 二 进 制 日 志 不 同 的 是 ， 当 不 需要 时 ， 中 继 日 志 会 被 SQL 
线程 自动 删除 ， 不 需要 手动 删除 。 
位 置信 息 
因为 Slave 会 记 住 复 制 同步 了 多 少 Master 的 数据 ， 因 此 即便 Slave 的 
进程 终止 后 隔 段 时 间 再 启动 ， 也 可 从 终止 时 的 断 点 开始 继续 同步 
数据 。 
在 此 我 们 将 Master 所 在 的 主机 名 、 日 志文 件 名 、 日 志文 件 中 处 理 的 信 
县 称 为 “位 置信 息 ”。 位 置信 息 被 保存 在 文本 格式 的 文 
件 “master.info” 中 ， 该 文件 可 以 使 用 SQL 语句 SHOW SLAVE STATUS 进 
行 确 认 。 
2.3.4 搭建 同步 结构 
接 下 来 对 同步 结构 的 搭建 流程 逐步 进行 说 明 。 
同步 条 件 
使 用 MySQL 搭建 同步 结构 需要 满足 以 下 前 提 条 件 : 

。 Master 可 拥有 多 个 Slave 


在 一 个 Master 下 面 能 够 配备 多 个 Slave 


。 Slave 只 能 挂靠 一 个 Master 


Slave 无 法 从 多 个 Master 中 同步 数据 ， 但 Slave 在 某 些 状况 下 也 可 
以 成 为 其 他 服务 器 (Slave) 的 Master 


。 所 有 的 Master 及 Slave 中 必须 指定 不 同 的 server-id 


ee 征 同步 结构 中 识别 不 同 服务 器 的 标志 ， 需 要 指定 为 不 同 的 


Master 需要 和 输出 二 进 制 日 志 


由 于 要 将 修改 类 的 请 求 传 送 到 Slave， 因 此 需要 保证 开启 Master 的 
二 进 制 日 志 


my.cnf 


各 需要 搭建 同步 结构 ， 可 将 MySQL 的 设 定 文件 “my.cnf” 参 照 代 码 清单 
2.3.1 进行 必要 的 设 定 。 


代码 清单 2.3.1 my.cnf 


[mysqld] 

server-id = 1 © 
log-bin mysql-bin 
log-bin-index mysql-bin 
relay-log = relay-bin 


relay-log-index = relay-bin 
log-slave-updates «©@ 


需要 将 每 个 数据 库 服务 器 的 server-id 设置 为 不 同 的 整数 值 ， 可 指定 的 范 
围 为 1 ~ 4294967295。 由 于 代码 清单 2.3.1 的 @ 中 己 经 将 server-id 指 
定 为 了 1， 若 这 是 Master 的 my.cnf， 则 Slave 的 server-id 就 需要 指定 为 
除 1 以 外 的 其 他 值 ( 例 如 2) 。 


代码 清单 2.3.1 的 @ log-bin 与 @ log-bin-index 是 指 开 启 二 进 制 日 志 ， 
并 指定 日 志 的 文件 名 及 索引 的 文件 名 。@ relay-log 与 @ relay-log-index 


也 是 同样 ， 指 的 是 开局 中 继 日 志 并 指定 中 继 日 志 的 文件 名 。 


最 后 的 @ log-slave-updates 设 定 了 Slave 的 二 进 制 日 志 输 出 。 若 无 该 设 
定 ， 则 Slave 不 会 输出 二 进 制 日 志 。 但 由 于 MySQL 的 同步 操作 中 
Master 必须 输出 二 进 制 日 志 ， 为 了 使 Slave 升格 为 Master 的 操作 顺利 进 
行 ， 事 先 对 Slave 设 定好 二 进 制 日 志 输 出 是 较 好 的 选择 。 


接 下 来 将 使 用 代码 清单 2.3.1 的 my.cnf， 局 动 搭建 好 的 Master 服务 器 的 
mySsdld 。 


建立 同步 专用 的 用 户 


为 了 连接 Master 与 Slave， 需 要 在 Master 上 建立 用 户 ， 并 赋予 其 最 基本 
的 REPLICATION SLAVE 权限 。 该 用 户 为 同步 专用 ， 不 需要 给 予 该 用 
户 其 他 的 权限 。 


例如 可 以 将 同步 专用 的 用 户 名 设置 为 “repl”， 将 该 用 户 的 密码 设 

为 “qa55wd”， 若 在 192.168.31.0/24 的 网 络 上 已 经 配置 了 Slave， 则 可 参 
考 以 下 信息 来 配置 Master。 在 本 命令 中 ， 为 用 户 repl 赋予 了 
REPLICATION SLAVE 权限 。 


mysql> GRANT REPLICATION SLAVE ON *.* TO repl@'192.168.31.6/255.255.255.0' 


同步 开始 时 所 必需 的 数据 


在 增加 新 的 Slave 时 ， 或 者 在 为 遭遇 故障 的 Slave 引入 备份 设备 时 ， 
Slave 的 初始 数据 要 怎么 准备 呢 ? 这 里 不 仅 需 要 进行 Master 的 完全 转 
储 ， 还 需要 明确 位 置信 息 ， 即 需要 知晓 Master 的 二 进 制 日 志 转 储 是 何 
0 因此 ， 仅 通过 mysqldump 工具 获取 数据 的 转 储 文件 并 不 能 
营建 出 Slave。 


简单 起 见 ， 这 里 将 转 储 + 位 置信 息 称 为 “快照 ” (Snapshot) 。 
在 抓 取 快照 时 ， 知 能 停止 Master 的 mysqld， 则 先 将 mysqld 停止 ， 然 后 


再 使 用 tar 等 打包 复制 区 包含 有 MyISAM 和 InnoDB 数据 文件 的 
MySQL 数据 目录 ， 或 者 使 用 LVM (Logical Volume Manager) 的 快照 


功能 ， 减 少 花费 的 时 间 。 使 用 tar 的 --exclude 选项 可 以 排除 不 必要 
的 文件 (二 进 制 文件 等 ) ， 从 而 缩短 复制 同步 的 时 间 。 


16 在 GNU tar 中 ， 使 用 -z 选项 可 同时 进行 gzip 压缩 。 但 根据 数据 容量 的 大 小 可 能 要 花费 一 些 
时 间 ， 知 希望 减少 时 间 ， 则 建议 不 进行 压缩 而 仅 使 用 tar 进行 复制 同步 。 


在 此 请 注意 不 要 起 记 “ 记 录 位 置信 息 ”。 

停止 mysqld 时 ， 系 统 会 记录 下 Master 的 二 进 制 日 志文 件 的 文件 名 ， 并 
在 启动 后 切换 到 下 一 个 数字 。 即 文件 名 为 “mysql-bin.000002” 的 日 志文 件 
在 启动 后 的 位 置信 息 将 变 为 “mysql-bin.000003 的 开头 ”27 。 


了 请 注意 二 进 制 日 志 的 头 部 的 位 置 是 “4”"， 而 不 是 “0”。 


在 不 能 停止 mysqld 的 情况 下 ， 只 需 先 暂停 使 用 修改 类 的 语句 (这 时 不 
让 数据 库 修 改 数据 ) ， 之 后 再 使 用 完全 转 储 ， 并 记录 好 SHOW MASTER 
STATUS 的 结果 便 可 以 了 。 


另外 ， 建 议 利用 磁盘 空间 尽 可 能 保存 更 多 的 快照 。 因 为 只 要 存在 快照 和 
抓 取 时 间 之 后 的 Master 的 二 进 制 日 志 ， 即 便 其 再 过 时 ， 也 可 以 以 此 为 
下 Slave， 这 对 今后 增设 Slave 及 恢复 故障 设备 都 会 起 到 很 大 的 作 


2.3.5 ”启动 同步 


下 面 基于 快照 制作 Slave。 若 Slave 在 mysqld 正在 运行 时 停止 的 话 ， 可 
以 采取 前 文中 说 明 过 的 步骤 将 快照 展开 到 MySQL 的 数据 目录 上 。 人 至 此 
Master 和 Slave 就 存放 好 相同 的 数据 了 。 


这 里 我 们 不 立刻 启动 Slave 的 mysqld， 先 来 比较 一 下 Master 和 Slave 的 
my.cnf 文件 的 差异 。 


Master 和 Slave 的 my.cnf 文件 的 差异 


确认 的 重点 是 “server-id”，Master 和 Slave 之 间 只 有 server-id 的 值 是 必 

须 不 同 的 。 若 使 用 了 InnoDB， 则 需要 将 Master 及 Slave 的 

栏目 中 的 数据 文件 的 名 称 、 数 量 、 大 小 设置 为 同 
站 的 数值 。 


总 而 言 之 ， 只 要 确认 Master 和 Slave 的 my.cnf 中 只 有 server-id 的 值 不 
一 样 就 可 以 了 。 


Slave 开始 运行 & 确认 


确认 没 问题 的 话 就 启动 Slave 的 mysqld， 但 因为 仅仅 启动 的 话 还 不 能 运 
行 Slave， 所 以 需要 在 Slave 中 执行 以 下 代码 : 


CHANGE MASTER TO ”< @ 指 示 与 Master 的 关系 
MASTER_HOST = 'my5-1', 
MASTER_USER 'repl', 

MASTER_ PASSWORD = 'qa55wd ' ， 
MASTER_LOG FILE = 'mysql-bin.686663', 
MASTER_LOG_POS 4; 


SLAVE START; < @ 开 始 复制 


在 @ CHANGE MASTER TO 
的 “MASTER LOG FILF” 与 “MASTER LOG POS” 中 ， 指 定 快照 抓 取 时 
的 位 置信 息 。 


如 果 想 要 确认 复制 同步 是 否 已 经 开始 进行 ， 可 在 Slave 中 执行 SHOW 
SLAVE STATUS ， 若 结果 中 

的 “Slave_IO_Running” 与 “Slave_SQL_Running” 都 为 Yes， 则 表示 没 问题 
了 。 要 是 发 生 错 误 的 话 ， 可 通过 “Last_Error” 或 MySQL 错误 日 志文 件 来 
调查 产生 错误 的 原因 ， 将 这 些 问 题解 决 后 ， 再 执行 SLAVE START 就 行 
外 


2.3.6 ”确认 同步 的 状态 


最 后 来 介绍 确认 同步 的 状态 的 方法 。 厦 同步 不 能 正常 运行 ， 可 通过 监控 
同步 的 状态 来 得 找 具 体 原 因 。 


Master 的 状态 确认 
首先 来 介绍 确认 Master 的 状态 的 SQL 语句 。 


SHOW MASTER STATUS 


SHOW MASTER STATUS 指令 可 以 被 用 来 调查 Master 二 进 制 日 志 的 


状态 。 执 行 结果 如 


mysql> SHOW MASTER 


图 2.3.2 所 示 。 项 目 内 容 见 表 2.3.1。 


STATUS\G 


米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 炒米 二。 FOW 洲 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 炒米 米 米 


File: mysql-bin.666666 
Position: 98 


Binlog_Do_DB: 
Binlog Ignore_DB: 


图 2.3.2 SHOW MASTER STATUS 的 执行 示例 


表 2.3.1 SHOW MASTER STATUS 列 出 的 各 项 目 


E 在 使 用 的 二 进 制 日 志 的 文件 名 
E 在 使 用 的 二 进 制 日 志 的 位 置信 息 


志 的 数据 库 名 称 


志 的 数据 库 名 称 


SHOW MASTER LOGS 


SHOW MASTER LOGS 会 显示 出 目前 Master 中 存在 的 所 有 二 进 制 日 


志 的 文件 名 。 执 行 


mysql> SHOW MASTER 
十 ee ee 
| Log_name 


| mysql-bin.666661 
| mysql-bin.666662 
| mysql-bin.666663 
| mysql-bin.666664 
| mysql-bin.666665 
| mysql-bin.666666 
十 可 


结果 如 图 2.3.3 所 示 。 


LOGS; 
----------- 十 
File size | 


十 
| 
+ 
| 
| 463 | 
| 
| 
| 
| 
+ 


图 2.3.3 SHOW MASTER LOGS 的 执行 示例 


由 于 二 进 制 日 志 是 渐渐 增加 的 ， 需 要 定期 清理 。 不 过 胡乱 删除 的 话 
会 导致 同步 中 止 ， 因 此 可 以 通过 后 面 叙 述 的 SHOW SLAVE STATUS 
对 处 理 完毕 的 二 进 制 日 志文 件 名 确认 之 后 再 删除 。 在 有 多 个 Slave 
运作 的 情况 下 ， 为 了 安全 地 删除 ， 可 以 待 所 有 Slave 的 三 进 制 日 志 
文件 处 理 完 毕 后 再 开始 进行 。 另 外 ， 也 不 能 直接 在 文件 系统 上 删除 
文件 ， 而 要 在 Master 上 执行 PURGE MASTERLOGS 语句 来 进行 删 
除 。 例 如 : 


PURGE MASTER LOGS TO "mysql-bin.666663 ' ; 


执行 以 上 语句 会 留 下 mysql-bin.000003， 而 删除 更 早 的 mysql- 
bin.000002 及 000001 日 志文 件 。 使 用 RESET MASTER 同样 也 可 以 进 
行 删 除 操作 ， 但 执行 该 语句 会 删除 Master 所 有 的 三 进 制 日 志 ，i 

而 造成 同步 终止 。 在 同步 正在 进行 的 情况 下 ， 不 能 使 用 RESET 
MASTER ， 而 要 用 PURGE MASTER LOGS 来 删除 日 志 。 


Slave 的 状态 确认 
以 下 介绍 确认 Slave 状态 的 SQL 语句 。 


SHOW SLAVE STATUS 


执行 SHOW SLAVE STATUS 就 可 以 确认 Slave 的 各 种 信息 ， 如 图 
2.3.4 所 示 。 各 条 目的 含义 如 表 2.3.2 所 示 。SHOW SLAVESTATUS 输 
出 的 内 容 根据 MySQL 版 本 的 不 同 可 能 存在 差异 ， 最 新 信息 请 参考 
MySQL AB 的 参考 手册 。 


mysql> SHOW SLAVE STATUS\G 


米 米 米 米 炒米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 炒米 了 。 FOW 洲 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 米 炒米 米 米 


Slave_I0 State: Waiting for master to send event 
Master_ Host: my5-1 


Master_User: 
Master_Port: 

Connect Retry: 
Master_ Log File: 

Read Master Log_ Pos: 
Relay_Log File: 
Relay_Log_Pos: 

Relay_ Master Log File: 
Slave_I0O Running: 
Slave_SQL_ Running: 
Replicate Do_DB: 
Replicate Ignore_DB: 
Replicate Do Table: 
Replicate Ignore Table: 
Replicate Wild Do Table: 
Replicate Wild Ignore Table: 
Last_ Errno: 

Last_ Error: 

Skip_ Counter: 

Exec_ Master Log_ Pos: 
Relay_Log_Space: 

Until Condition: 
Until Log File: 

Until Log_ Pos: 
Master_SSL Allowed: 
Master SSL CA File: 
Master SSL _CA Path: 
Master_SSL Cert: 
Master_ SSL Cipher: 
Master_SSL Key: 
Seconds Behind Master: 


repl 

3366 

60 
mysql-bin.666666 
98 
relay-bin.686116 
235 
mysql-bin.666666 
Yes 

Yes 


图 2.3.4 SHOW SLAVE STATUS 的 执行 示例 


表 2.3.2 SHOW SLAVE STATUS 列 出 的 条 目 〈 节 选 ) 


TI 


Master_User 


Connect_Retry 


连接 Master 所 使 有 的 用 记名 的 用 


当 连 接 Master 失 败 的 情况 下 ， 


再 尝试 连接 Slave 的 等 待 


Master Log_File Slave 的 IO 线程 正在 读 取 的 Master 的 二 进 外 


je 和 一 讲 制 日 去 线程 已 经 读 取 的 位 
ee 7 前 Master 的 二 进 制 日 志 中 ，IO 线 程 已 经 读 取 的 位 


SQL 线程 当前 正在 读 取 和 执行 的 中 继 日 志文 件 的 名 称 


ee 在 当前 Slave 的 中 继 日 志 中 ，SQL 线 程 已 读 取 和 执行 的 
Ve 位 置 
记录 了 SQL 线程 最 后 执行 的 查询 的 Master 二 进 制 日 志 尼 


IO 线程 是 否 被 启动 
SQL 线程 是 否 被 启动 
设 定 进行 同步 的 数据 库 名 称 


最 后 执行 的 查询 所 返回 的 错误 编号 。“0” 代 表 没有 错误 


a 最 后 执行 的 查询 所 返回 的 错误 消息 等 。 若 Last_Error 值 
于 是 空 值 ， 则 代表 没有 错误 
. 最 后 使 用 SQL_SLAVE_SKIP_ COUNTER 时 的 值 。 若 没 
Skip_Counter 有 使 用 就 设 为 “0” 


SQL 线程 最 后 执行 的 查询 在 Master 的 二 进 制 日 志 中 的 位 
置 


Exec_ Master Log_Pos 


Relay_Log_Space 所 有 原 有 的 中 继 日 志 结合 起 来 的 总 大 小 。 自 
测量 SQL 线程 和 IO 线程 之 间 的 时 间 差 距 ， 单 位 以 秒 
Seconds_Behind_Master | 计 。 若 Master 和 Slave 之 间 的 网 络 连 接 较 快 ， 则 能 够 十 
分 近似 地 表示 Slave 比 Master 洲 后 多 少 
具体 输出 的 内 容 有 很 多 ， 下 面 列举 几 个 需要 注意 的 地 方 。 
首先 来 说 日 志文 件 名 与 位 置信 息 ，Master_Log_File 与 


Read_Master_Log_Pos 相对 应 ，Relay_Log_File 与 Relay_Log_Pos 
相对 应 ，Relay_Master Log_File 与 Exec_Master Log_ Pos 相对 应 。 


若 IO 进程 正常 ，Slave_IO_Running 就 会 显示 为 “Yes”; 若 SQL 进 
程 正常 ，Slave_SQL_Running 就 会 显示 为 “Yes”"。 奉 其 中 任何 一 方 
不 是 “Yes”"， 则 同步 束 会 终止 ， 因 此 在 监控 Slave 运行 情况 的 时 候 需 
要 密切 关注 上 述 这 些 条 目 。 


Last_Error 中 显示 了 错误 信息 ， 该 错误 信息 会 被 记录 在 错误 日 志文 


件 中 。 正 各 情况 下 Last_Errno 会 显示 为 “0”; 寿 出 现 错误 ， 
Last_Ermnor 就 会 显示 错误 信息 。 在 监控 Slave 的 状态 时 ， 需 要 同时 
确认 Last_Errno 与 Last_Error 两 者 的 情况 。 


2.4 MySQL 的 Slave+ 内 部 负载 均衡 占 的 灵活 应 
用 示例 

2.4.1 MySQL 的 Slave 的 运用 方法 

MySQL 的 同步 结构 中 的 Slave 对 实时 备份 来 说 是 一 个 非常 有 用 的 功 


能 ， 但 配置 稍 显 复杂 。 本 节 中 将 会 逐步 探讨 有 关 MySQL Slave 的 运用 
p> 


Slave 的 运用 策略 

首先 ， 实 际 操作 中 最 常 使 用 的 是 根据 服务 器 属性 的 不 同 来 规定 其 行为 ， 
以 此 来 实现 负载 分 发 ， 即 将 修改 类 语句 (INSERT、DELETE、 
UPDATE ) 在 Master 中 进行 ， 将 查询 类 语句 (SELECT) 在 Slave 中 进 
行 。 

为 了 进一步 横 癌 扩展 ， 还 可 放置 多 台 Slave。MySQL 的 同步 虽然 仅 允 许 
一 台 Master 的 存在 ， 但 设置 多 台 Slave 是 完全 可 以 的 。 在 此 建立 多 台 
Slave， 以 将 查询 类 语句 分 发 到 这 些 Slave 上 。 

分 发 到 多 台 Slave 上 


| > 的 问题 在 于 如 何 分 发 这 些 请 求 。 在 这 里 介绍 两 种 方法 以 供 各 
立 参 考 ，。 


@ 在 应 用 程序 端 进行 分 发 


第 一 种 方式 就 是 在 Web 应 用 程序 端 进 行 分 发 处 理 。 只 要 做 出 以 下 
处 理 ， 即 可 实现 应 用 程序 端的 分 发 。 


确定 好 所 有 Slave 的 主机 名 
。 实现 分 发 的 逻辑 ， 即 如 果 决 定 分 发 到 哪 台 Slave 服务 器 上 


。 实 施 Slave 的 状态 监控 ， 若 宕 机 则 不 要 分 发 到 该 Slave 上 


近期 使 用 O/R 映射 访问 数据 库 服务 器 的 情况 有 很 多 ， 因 此 可 以 选择 
在 O/R 映射 层 配备 此 类 分 发 处 理 。 
一 一 全 在 负载 均衡 器 上 进行 分 发 


第 二 种 方法 是 利用 负载 均衡 器 。 提 到 负载 均衡 顺 ， 大 家 往往 会 想到 
古 在 外 部 客户 端 与 Web 服务 器 之 间 《〈 即 传送 服务 器 文件 的 通道 ) 
所 放置 的 设备 ， 而 既然 负载 均衡 器 是 基于 Linux 部 车 的 ， 所 以 不 妨 
将 其 部 署 到 服务 器 集群 内 部 ， 这 也 束 是 第 二 种 方案 。 


与 在 应 用 程序 端 进行 分 发 相 比 ， 在 负载 均衡 器 上 分 发 有 以 下 优 扣 : 
。 应 用 程序 端 无 需 考 碟 Slave 的 台数 


由 于 增 减 Slave 的 台数 可 利用 负载 均衡 器 进行 分 肥 ， 因 此 就 不 
需要 特意 使 用 AP 服务 器 来 分 别管 理 所 有 的 Slave 


o 应 用 程序 端 无 需 考 虑 Slave 的 工作 状态 


由 于 负载 均衡 会 进行 恢复 工作 《通过 监控 分 发 集群 的 状态 ， 万 
一 发 生 情况 就 用 备用 的 Slave 项 符 遭 遇 故 障 的 设备 ) ， 因 此 并 
不 需要 在 应 用 程序 端 进行 监控 或 分 友 处 理 


可 以 进行 更 加 平衡 的 分 发 
由 于 使 用 了 “分 发 到 连接 数 最 小 的 Slave 上 ”的 策略 ， 因 此 可 实 


现 更 均衡 地 分 配 负 载 。 在 Web 应 用 程序 端 进行 分 发 时 ， 知 连 
接 数 超出 了 进程 或 AP 服务 器 的 负载 ， 就 很 难 实现 均 衡 地 分 发 


通过 以 该 方式 部 普 ， 不 仅 可 以 使 应 用 程序 问 的 处 理 减 少 ， 还 可 以 使 
应 用 程序 端 不 用 得 知 Slave 集群 的 状态 。 例 如 ， 在 需要 增加 Slave 
的 情况 下 ， 应 用 程序 端 不 用 做 出 任何 准备 ， 只 要 使 用 负载 均衡 器 ， 
通过 下 述 的 作业 过 程 就 能 完成 所 需 的 处 理 。 


因此 ， 下 文 将 对 内 部 负载 均衡 器 进行 深入 讲解 。 


O 〇 


2.4.2 ”通过 负载 均衡 器 将 请 求 分 友 到 多 台 Slave 的 方法 
以 下 将 介绍 通过 内 部 负载 均衡 器 将 请 求 分 发 到 多 台 Slave 的 方法 。 
概况 图 
图 2.4.1 是 相关 的 结构 图 。 

。 AP : 发 送 请 求 的 Web 应 用 程序 

。 db100: MySQL 的 Master 数据 库 服务 器 

。db101、db102: MySQL 的 Slave 数据 库 服务 器 

。 db100-s : Slave 集群 所 捆绑 的 虚拟 Slave 名 


。]11、112: 内 部 负载 均衡 器 。 通 过 1、l2 构成 VRRP 的 
Active/Backup 结构 ，VIP 为 lls(192.168.31.230) 


人 

es 

a 
Create 可 和 
Update Read VIP: 192.168.31.230 (lis) 
ee 192.168.31.119 { db100-s ) 


eth0:192.168.31.110 eth0:192.168.31.112 


图 2.4.1 通过 负载 均衡 器 将 请 求 分 及 到 多 人 台 Slave 


在 MySQL 的 分 发 架构 中 ， 存 在 一 台 Master (db100) 与 两 台 

Slave (db101、db102〉。 处 理 客户 并 请 求 的 AP 将 修改 类 的 请 求 
(Create、Updata、Delete) 分 配 到 Master， 将 查询 类 的 请 求 〈 不 破坏 数 

据 的 语句 ) 分 配 到 Slave。 而 且 并 不 直接 连接 到 Slave， 而 是 经 由 内 部 负 

载 均衡 器 (ls) 进行 访问 。 内 部 负载 均衡 器 lls 能 监控 Slave 集群 是 否 

贡 工 作 ， 并 恰当 地 将 请 求 分 发 到 Slave 上 。 


本 节 使 用 的 MySQL 的 版 本 是 5.0.45，keepalived 的 版 本 是 1.1.15。 
内 部 负载 均衡 器 的 配置 


lls (111 与 12) 的 keepalived.conf 的 设 定 如 代码 清单 2.4.1 所 示 。 


代码 清单 2.4.1 ll 的 keepalived.conf 的 设 定 


### basic section 
vrrp_instance VI { 
state BACKUP 
interface ethe 
garp_master delay 5 
virtual router id 236 <*@ 
priority 166 
nopreempt 
advert int 1 
authentication { 
auth_type PASS 
auth_pass himitsu 
} 
virtual_ipaddress { <—o 
192.168.31.2386/24 dev etho | < 
192.168.31.119/24 dev etho6 | 
> 
} 
### MySQL slave section 
virtual server group MYSQL166 { 
192.168.31.119 3366 
} 
virtual server group MYSQL166 { 
delay_loop 3 


lvs_sched rr 
lvs_method DR <@ 
protocol TCP 


real server 192.168.31.111 3366 { 


weight 1 
inhibit on _failure 
TCP_CHECK { 
connect port 3366 
connect timeout 3 
} 
} 
real server 192.168.31.112 3366 { 
weight 1 
inhibit on failure 
TCP_CHECK { 
connect port 3366 
connect timeout 3 


首先 请 看 “basic” 代 码 块 。 在 此 代码 块 中 ， 设 定 了 lls 即 负 载 均衡 器 的 基 
本 行为 。 需 要 留意 的 是 代码 清单 2.4.1 中 @ 处 的 virtual_router id 所 指 
定 的 VRID (Virtual Router ID， 路 由 器 集群 识别 标示 符 ) 。 


在 该 VRRP 中 ， 虚 拟 路 由 器 采用 与 VRID 相同 节点 〈 路 由 ) 的 集群 结构 

(在 VRRR 协议 中 ，VRID 是 VRRP 路 由 的 唯一 标识 ) 。 因 此 在 同一 网 
络 的 网 段 中 ， 每 个 虚拟 路 由 器 集群 的 VRID 都 必须 不 同 。 若 外 部 负载 均 
衡器 等 已 经 存在 虚拟 路 由 器 集群 的 话 ， 请 确保 将 virtual_router id 设 定 
为 不 同 的 值 。 可 以 通过 使 用 tcpdump 查看 VRRP 报 文 ， 像 图 2.4.2 那样 
查看 实际 正在 使 用 的 VRID。 


lls# tcpdump -n proto \\vrrp 
66:59:42.164341 IP 192.168.31.231 > 224.0.0.18: VRRPv2, Advertisement, vrid 


图 2.4.2 使 用 tcpdump 查看 VRRP 报 文 


在 basic 代码 块 中 还 有 一 个 重点 ， 即 代码 清单 2.4.1 中 人 处 的 
virtual_ipaddress。 这 里 同时 设 定 了 内 部 负载 均衡 器 自 映 的 虚拟 路 由 器 地 
址 (192.168.31.230)〉 和 虚拟 Slave (db100-s) 所 用 的 卫 地 址 


(192.168.31.119) 。 


接 下 来 是 “MySQL slave” 代 码 块 ， 这 里 并 没有 什么 需要 特别 注意 的 地 
方 。virtual_server_group 中 指定 了 虚拟 Slave 所 使 用 的 卫 地 址 与 端口 
号 ， 下 面 的 virtual_server 中 指定 了 真实 服务 器 〈Slave) 。 本 例 中 是 通 
过 使 用 TCP_CHECK 查看 TCP_CHECK 的 3306 端口 是 否 启动 来 对 真实 
服务 器 进行 状态 监控 的 ， 若 需要 更 加 严密 的 监控 ， 
实际 发 出 的 请 求 是 全 得 到 了 回应 ， 有 具体 可 以 在 脚本 中 通 

MISC_CHECK 等 方式 进行 。 


MySQL Slave 的 设 定 


从 内 部 负载 均衡 器 的 角度 来 看 ， 必 须 对 真实 服务 器 ， 即 MySQL Slave 
服务 器 进行 配置 。 


虽然 MySQL 的 服务 并 不 需要 进行 特别 的 设置 ， 但 如 代码 清单 2.4.1 中 
的 全 所 示 ， 因 为 设 定 了 “DSR” 的 分 发 加 ， 所 以 必须 确保 虚拟 Slave 的 
IP 地 垃 够 下 党 收 到 报 文 。 具 体 来 说 ， 需要 对 Slave (db101、db102) 
执行 以 下 命令 : 


18 在 DRS 结构 中 ， 将 lvs_method 指定 为 "DR”， 而 不 是 “DSR”( 请 参考 1.3 节 ) 。 


iptables -t nat -A PREROUTING -d 192.168.31.119 -j REDIRECT 


体验 将 请 求 分 发 到 多 台 Slave 的 负载 均衡 


以 上 设 定 完毕 后 ， 即 可 体验 负载 均衡 了 。 这 里 为 了 直观 地 进行 确认 ， 将 
分 发 对 象 Slave 的 server idl 结合 其 主机 名 db101 与 db102 命名 为 101 
和 102。 在 访问 该 server_ id 时 ， 将 会 把 请 求 发 送 到 虚拟 Slave (db100- 
s) 上 ， 下 面 我 们 来 确认 是 否 确实 进行 了 分 发 处 理 〈 图 2.4.3) 。 


1 通过 my.cnf 指定 的 MySQL 的 相关 参数 。 在 进行 复制 同步 等 操作 的 时 候 ， 通 党 被 用 于 识别 
服务 器 。 具 体 在 2.3 节 中 有 说 明 。 


wW161$ check lb slave() { 
> echo 'SHOW VARIABLES LIKE "server id"' | mysql -s -hdb166-s 


> } 

wW161$ check lb slave 
server_id 161 

wW161$ check lb slave 
server_id 162 

wW161$ check lb slave 
server_id 161 


图 2.4.3 体验 将 请 求 分 发 到 多 台 Slave 的 负载 均衡 
虽然 是 向 同一 台 虚 拟 服务 器 〈db100-s) 发 送 请 求 ， 但 由 于 server_id 的 


值 不 同 ， 因 此 也 可 确认 负载 均衡 是 否 完 成 了 分 发 的 工作 。 
2.4.3 ”内 部 负载 均衡 器 的 注意 点 ...... 基 于 DSR 的 分 发 方法 


相对 于 外 部 负载 均衡 器 ， 内 部 负载 均衡 器 也 有 需要 特别 注意 的 要 点 ， 即 
分 发 策略 为 DSR (lvs_method DR) ， 而 不 是 NAT (lvs_method 
NAT) 。 


在 使 用 NAT 集 略 的 情况 下 ， 从 客户 并 的 角度 来 看 ， 由 于 报 文 送出 后 会 
从 不 同 的 对 象 返 回应 答 ， 因 此 无 法 再 次 处 理 返 回 的 报 文 。 


具体 来 说 ， 假 设 有 客户 端 向 终点 VIP 地 址 发 出 请 求 报 文 ， 若 使 用 NAT 
策略 ， 在 负载 均衡 收 到 该 报 文 后 ， 会 把 终点 地 址 转换 为 真实 服务 器 的 IP 
地 址 再 传送 给 真实 服务 器 。 虽 然 真实 服务 器 在 接 到 报 文 后 会 返回 应 答 ， 

但 所 返回 的 报 文 的 起 始 地 址 却 变 成 了 真实 服务 器 的 地 址 。 如 果 该 返回 的 
报 文 经 由 负载 均衡 器 ， 则 起 始 地 址 会 转换 为 VIP， 不 会 引发 问题 ;但 若 
真实 服务 器 与 客户 端 存 在 于 同一 网 络 中 ， 则 没 必要 经 过 负载 均衡 器 ， 而 
是 直接 将 报 文 送 到 客户 端 上 ， 这 样 就 会 导致 送 往 VIP 的 报 文 由 不 同 于 

VIP 的 地 址 (真实 服务 器 的 IP 地 址 ) 返回 了 应 答 。 


讲 到 这 里 想必 大 家 都 能 领会 了 ， 没 错 ， 我 们 需要 的 正 是 一 种 名 为 DSR 
的 报 文 的 传输 形式 。 只 要 使 用 DSR 的 分 发 方法 ， 就 不 会 有 任何 问题 ， 
都 可 以 正常 地 啊 应 该 报 文 。 里 然 使 用 NAT 的 情况 下 稍 加 努力 也 能 实现 
这 种 效果 ， 但 使 用 DSR 可 以 明显 减轻 负载 均衡 器 的 负载 ， 所 以 在 使 用 
内 部 负载 均衡 器 时 ， 没 必要 费 尽 心力 地 去 应 用 NAT 的 拓扑 结构 。 


2.5 ”选择 轻 量 高 速 的 存储 服务 器 

2.5.1 存储 服务 器 的 必要 性 

在 派发 大 容量 文件 (例如 视频 或 音乐 等 ) 的 服务 中 ， 内 容 文件 如 何 存储 
时 常 是 个 很 重要 的 课题 。 特 别 是 在 负载 分 发 的 环境 下 ， 同 一 个 文件 必须 
存放 在 多 台 Web 服务 器 中 ， 如 果 文 件 的 数量 及 容量 都 非常 大 的 话 ， 则 
将 面 对 以 下 问题 : 

部 署 到 所 有 Web 服务 器 将 花费 很 多 时 间 

必须 在 所 有 Web 服务 器 上 配置 大 容量 硬盘 


鉴于 Web 服务 器 上 的 所 有 文件 都 混杂 在 一 起 ， 根 据 需 要 将 其 分 离 
存放 比较 态 烦 


增设 Web 服务 器 比较 及 烦 《复制 及 同步 文件 很 伦 时 间 ) 


虽然 将 所 有 的 数据 都 存储 在 MySQL 等 的 数据 库 服务 器 中 会 方便 许多 ， 
但 从 取 用 与 维护 的 便利 性 来 考虑 ， 在 大 多 数 情况 下 还 是 希望 以 文件 的 形 
式 进行 存储 。 在 此 情况 下 ， 通 第 的 拓扑 结构 是 使 用 大 容量 的 存储 服务 器 
人 


可 情 的 是 ， 系 统管 理 者 通常 会 说 "最 好 还 是 则 用 存储 服务 器 吧 "。 其 理由 
0 下 ; 


。 当 存 储 服 务 器 发 生 故 障 时 通常 殊 及 面 很 广 

。 万 一 数据 丢失， 恢复 要 花费 大 量 时 间 和 精力 

。 存储 服务 器 易 产 生 憩 贷 

。 商用 产品 较为 蜗 价 

存储 服务 器 容易 导致 撼 贷 ， 还 容易 造成 单 点 故障 。 越 是 考虑 友 生 问题 时 


的 丈 手 状况 ， 对 存储 服务 占 的 应 用 束 越 慎重 。 下 文 将 探讨 存储 服务 器 友 
生 故 障 时 的 细 市 。 


存储 服务 器 容易 导致 里 点 故障 


在 Web 服务 器 挂 载 到 存储 服务 器 (NFS) 上 时 ， 若 存储 服务 器 因 故 停 
止 运作 ， 将 会 造成 很 严重 的 事态 。 以 下 引用 man nfs 的 介绍 。 


soft : 如 果 访 问 NFS 文件 的 操作 没有 被 服务 器 做 出 啊 应 ， 将 对 调用 的 
程序 返回 IO 错误 。 默 认 一 直 重 试 对 文件 的 操作 


hard : 如 果 访 问 NFS 文件 的 操作 没有 被 服务 器 做 出 响应， 将 在 控制 台 
上 显示 “server not responding”， 同 时 也 会 继续 重 试 对 文件 的 操作 ， 直 到 
服务 器 做 出 啊 应 为 止 


intr : 如 果 访 问 NFS 文件 的 操作 超时 ， 而 且 其 NFS 链接 的 命令 为 
hard， 则 人 允许 中 断 NFS 请 求 ， 在 中 断 的 情况 下 对 应 用 程序 返回 
EINTR， 默 认 不 允许 中 断 文 件 操作 


本 全 引 自 man nfs 


也 就 是 说 ， 在 存储 服务 器 停止 期 间 ，Web 服务 器 将 会 无 限 重 试 对 NFS 
的 文件 操作 。 其 结果 会 造成 Web 服务 器 访问 文件 的 等 待 时 间 变 长 ， 进 
而 造成 无 法 浏览 其 他 页 面 的 情况 (服务 停止 ，。 男 外 在 文件 操作 不 能 
灯 (intr 没有 被 指定 ) 的 情况 下 ， 也 会 导致 Apache 无 法 重启 。 


虽说 将 挂 载 选项 指定 为 soft 或 intr 能 够 在 一 定 程度 上 改善 问题 ， 但 在 
NFS 被 作为 操作 系统 的 功能 〈 文 件 系 统 ) 装载 的 情况 下 ， 调 整 Web 应 
用 程序 的 超时 时 间或 中 止 文 件 操作 并 不 可 行 。 因 此 在 文件 操作 超时 前 的 
等 待 时 间 中 ， 奉 Web 服务 器 的 进程 数 超出 限制 ， 就 会 导致 服务 停止 。 


存储 服务 器 容易 造成 瓶颈 


存储 服务 器 不 仅 容易 导致 单 点 故障 ， 还 易 出 现 瓶颈 的 问题 。 虽 然 Web 
服务 器 的 状态 可 以 被 监控 ， 比 如 可 以 同时 监控 10 台 、20 台 Web 服务 器 
的 状态 ， 但 NFS 服务 器 却 不 能 被 监控 ， 所 以 此 处 重出 现 瓶 贷 ， 再 去 皖 
救 是 很 困难 的 。 如 图 2.5.1 所 示 ， 虽 然 可 以 考虑 增设 NFS 服务 器 的 方 
法 ， 但 实际 上 不 能 解决 的 问题 有 很 多 。 这 是 由 于 访问 量 集中 的 内 容 大 多 
都 是 才 更 新 的 新 内 容 ， 或 者 是 具有 东 种 推广 效果 的 内 容 。 也 就 是 次 ， 在 
访问 比较 集中 的 情况 下 ， 会 有 很 多 用 户 同时 请 求 同 一 数据 ， 即 便 根 据 目 
录 对 NFS 服务 器 进行 了 区 分 ， 也 依然 会 造成 用 户 的 访问 请 求 集 中 于 同 


一 台 NFS 服务 器 。 


mount -t nfs nfs1: /mnt/nfs' 
mount -t nfs nfs2: /mnt/nfs2 
mount -t nfs nfs3:f /mntinfs3 


图 2.5.1 NEFS 服务 器 的 增设 案例 


男 外 ， 如 果 仅 考虑 负载 问题 的 话 ， 如 图 2.5.2 所 示 ， 虽 然 可 以 根据 Web 
服务 器 区 分 所 挂 载 的 NFS 服务 器 ， 但 这 种 拓扑 结构 会 造成 无 法 确保 多 
台 NFS 服务 器 中 文件 的 整合 性 。 在 打开 内 容 时 ， 必 须 向 所 有 的 NFS 服 
务 器 传送 同样 的 文件 。 而 当 文 件数 量 达 到 相当 庞大 的 规模 时 ， 确 保 所 有 
服务 器 的 内 容 相 同 将 会 是 很 困难 的 工作 。 


图 2.5.2 ”NES 服务 器 的 分 发 示例 

2.5.2 ”理想 的 存储 服务 器 

综 上 上 所 述 ， 理 想 的 存储 服务 器 完 竟 是 怎样 的 呢 ? 

。 在 大 量 访问 到 来 时 也 依然 快速 ， 不 会 出 现 瓶 颈 

。 能 避免 针对 多 台 服 务 器 的 文件 同步 工作 

EE 避免 单 点 故障 的 出 现 

。 若 能 用 开源 软件 实现 就 更 好 了 

下 文 将 逐步 介绍 满足 以 上 要 求 的 存储 服务 器 NFS 的 建立 。 
减轻 负载 


就 许多 Web 网 站 而 言 ， 最 希望 谋求 的 是 存储 服务 器 的 * 读 取 速 度 " 和 "“ 破 
盘 容 量 ”， 而 没 必要 妃 求 存储 服务 器 的 “ 写 入 速度 ”。 


是 “会 话 信 息 ” 以 及 “个 人 信息 "等 。 由 于 会 话 信 
是 临时 的 数据 ， 所 以 使 用 memcached 等 的 缓存 服务 嚣 即 可 ; 而 个 人 


ZI 


言 轧 则 放 到 数据 库 中 更 为 合适 。 也 就 是 说 ， 只 要 存储 服务 器 能 大 量 存储 
视频 、 音 频 等 较 大 容量 的 数据 ， 且 能 够 将 必要 的 数据 快速 读 出 就 可 以 
了 。 


如 此 这 般 确 实 能 大 幅 减轻 Web 服务 器 的 负载 量 。 在 使 用 存储 服务 器 
时 ， 例 如 在 面向 NFS 的 平台 开发 Web 应 用 程序 时 ， 使 用 诸如 Jave 或 
PHP 等 语言 ， 也 可 以 像 处 理 普通 资料 一 样 处 理 Web 服务 器 上 的 资料 ， 
因此 通过 HTTP 来 操作 文件 这 种 方式 ， 开 发 者 想必 也 会 很 快 适应 的 。 


2.5.3 ”将 HTTP 作为 存储 协议 使 用 


通过 以 上 的 说 明 可 以 看 出 ， 通 过 在 存储 服务 器 上 搭建 微型 Web 服务 

器 ， 就 可 以 大 人 致 解决 性 能 方面 的 问题 。 我 们 在 这 里 构建 了 如 图 2.5.3 的 
系统 ， 图 2.5.3 中 的 “WS” 就 是 存储 服务 器 。 昌 然 文件 的 写 入 需要 NFS， 
但 没 必 要 在 所 有 的 服务 器 上 都 挂 载 ， 只 需 在 将 文件 上 传 到 服务 器 时 挂 载 
足以 。 图 2.5.3 的 “Master”* 束 是 这 样 设置 的 ， 其 他 的 服务 器 (Web 服务 
器 ) 并 不 使 用 NFS， 而 是 在 WS 中 经 由 HTTP 来 获取 文件 。 


NFS 服务 器 


HTTP GET 


HITP GET Web 服务 器 


HTTP GET 


图 2.5.3 ”结合 了 NFS 和 HTTP 的 存储 服务 器 


轻 量 Web 服务 器 的 选择 


在 WS 中 所 使 用 的 Web 服务 器 均 需 要 轻巧 快速 。 即 使 没有 Apache 那样 
腕 肿 的 各 项 功能 也 没有 关系 。 因 此 需要 舍弃 CGI、SSL 等 动态 网 页 生成 
的 功能 ， 只 要 确保 能 高 速 稳定 地 传输 静态 文件 即 可 。 在 笔者 的 环境 中 ， 
通过 使 用 thttpd 20 来 提供 HTTP 的 访问 ， 就 能 够 显著 提升 性 能 。 尤 其 是 
在 并 发 量 集中 时 段 ， 更 能 表现 其 绝 佳 的 处 理性 能 。 


20 URL http://www.acme.com/software/thttpd/ 


在 前 文中 提 到 了 在 访问 量 集中 时 ， 用 户 会 集中 请 求 同 一 数据 ， 即 会 出 现 
同一 文件 被 反复 读 取 的 访问 模式 。 该 数据 基本 上 都 被 缓存 到 了 存储 服务 
器 的 内 存 中 。 由 于 thttpd 可 以 将 存储 服务 器 内 存 中 的 数据 直接 传送 ， 因 
此 并 未 加 重 存储 服务 需 磁 盘 IO 的 负担 ， 这 样 便 解决 了 存储 服务 器 的 瓶 


颈 问 题 。 
利用 HTTP 的 优势 


与 NFS 相 比 ， 可 以 说 HTTP 是 服务 器 和 客户 端 之 间 的 桥梁 。 在 Web 服 
务 器 所 挂 载 的 NFS 宕 机 的 情况 下 ，NEFS 服务 器 停止 会 造成 文件 系统 上 
的 处 理 停止 ， 即 便 重启 Apache 也 无 法 解决 该 问题 。 


但 硅 使 用 HTTP 的 话 ， 在 Web 应 用 程序 并 就 能 自由 地 设 定 超 时 时 间 ， 
从 而 很 容易 就 能 检查 出 存储 服务 器 的 异常 情况 并 返回 错误 信息 ， 以 此 便 
能 在 一 定 程度 上 回避 央 为 存 备 服务 喜 故 障 而 引 必 标 个 网 站 停止 服务 的 风 


险 。 


2.5.4 ”遗留 的 问题 


至 此 我 们 已 经 实现 了 “即便 出 现 大 量 访问 也 不 会 引起 服务 器 瓶 宽 的 高 速 
存储 服务 圳 ”， 但 仍 不 知 如 何 “ 规 避 单 点 故障 ”及 “避免 多 人 台 服 务 需 文件 同 
步 ?。 这 两 个 问题 是 相互 制约 的 ， 知 不 想 造 成 单 点 故障 就 需要 增设 更 多 
的 服务 器 ， 但 增设 更 多 的 服务 需 又 会 融 来 多 人 台 服 务 器 文件 同步 的 麻烦 。 
要 解决 这 些 问题 ， 需 要 更 高 级 的 策略 。 


这 两 个 问题 我 们 留 到 3.2 市 来 解决 。 


专栏 


选择 小 巧 轻 便 的 Web 服务 器 
以 下 软件 均 为 小 巧 轻便 的 Web 服务 器 : 
e。 khttpd (图 A) URL http://www .fenrus.demon.nl/ 


kH | 中 pd Linux HTTP Accelerator 区 


Introduction 


kHTTPd is a http-daemon (webserver) for Linux. kKHTTPd is different from other webservers 
in that it runs from within the Linux-kernel as a module ( 


kHTTPd handles only static (file based) web-pages, and passes all requests for non-static 
information to a regular userspace-webserver such as Apache or Zeus. 


Static web-pages are not a very complex thing to serve, but these are very important 
‘to network"-operation. The Linux-kernel is very good at this, for example the nfs (network file 


system) daemon also runs in the kernel. 


By “accelerating" the simple case within the kernel, userspace daemons can do what they are 
‘very good at Generating user-specific, dynamic content 


A khttpd 


。 thttpd (图 B) URL http://www.acme.com/software/thttpd/ 


B thttpd 


。 lighttpd (图 C) URL http:/www.lighttpd.net/ 


IMPORTANT all 1.4.x users should upgrade to 1.4.19, all users of 1.5-svn 
三 should at least upgrade to r1922. 


|| 0 HTTPD Security, speed, compliance, and flexibility -- all of these describe lighttpd (crom. 

lighty) which is rapidly redefining efficiency of a webserver; as it is designed and 

fly light. optimized for high performance environments. With a small memory footprint 

compared to other web-servers, effective management of the cpu-load, and 
advanced feature set (FastCGI, SCGI, Auth, Output-Compression, URL-Rewriting 
and many more) lighttpd is the perfect solution for every server that is 
suffering load problems. And best of all its Open Source licensed under the 
revised BSD license. 


Web 2.0 


lighttpd powers several popular Web 2.0 sites like YouTube, wikipedia and 
meebo. lts high speed io-infrastructure allows them to scale several times better 
with the same hardware than with alternative web-servers. 


This fast web server and its development team create a web-server with the 
needs of the future web in mind: 


e。 Faster FastCG| 
e COMET meets mod_mailbox 
e。 Async IO 


图 C lighttpd 


首先 是 khttpd， 它 是 作为 Linux 的 内 核 模块 安装 的 Web 服务 器 。 正 
是 由 于 它 是 作为 内 核 执 行 的 ， 因 此 具备 强劲 的 性 能 。 但 由 于 涉及 内 
核 可 能 会 导致 死机 ， 本 来 可 以 期 每 在 以 后 的 版 本 中 加 以 改善 ， 但 可 
惜 的 是 在 内 核 2.5 的 时 候 已 经 删除 了 相关 代码 ，2.6 版 时 就 已 经 完 
全 消失 了 ， 因 此 笔者 不 得 不 放弃 对 它 的 使 用 。 虽 然 此 设想 很 值得 玩 
味 ， 但 在 内 核 空间 处 理应 用 程序 协议 方面 好 像 还 存在 一 些 问 题 。 


thttpd 和 lighttpd 都 是 轻巧 快速 的 Web 服务 器 软件 。 至 于 选择 哪个 
确实 很 伤 脑筋 。 根 据 笔者 的 亲自 验证 ， 二 者 在 性 能 上 几乎 没有 区 
别 。 虽 然 lighttpd 的 功能 更 多 ， 但 鉴于 thttpd 更 简单 易 用 ， 于 是 笔 
者 选择 了 thttpd。 


第 3 章 ”进一步 完善 不 间断 的 基础 
设施 DNS 服务 器 、 存 储 服务 
器 、 网 络 


3.1 DNS 服务 器 的 元 余 


3.1.1 DNS 服务 器 元 余 的 重要 性 
虽说 DNS 服务 器 的 故障 并 不 那么 常见 ， 但 一 旦 发 生 问 题 束 要 花 很 长 时 
间 才 能 查 明 原因 。 为 了 实现 不 间断 的 基础 设施 ， 将 DNS 服务 器 进行 元 
本 节 我 们 将 围绕 着 下 列 几 点 来 探讨 DNS 服务 器 的 元 
。 利 用 解析 库 (Resolver Library) 进行 见 余 ， 有 降低 性 能 的 风险 
。 基 于 服务 器 集群 实现 DNS 的 见 余 
> 利用 VRRP 的 拓扑 结构 
DNS 服务 器 的 负载 分 友 
3.1.2 ”使 用 解析 库 实现 见 余 及 存在 的 问题 
为 了 实现 DNS 的 见 余 ， 可 像 图 3.1.1 那样 在 /etc/resolv.conf 中 指定 多 个 
DNS 服务 器 。 应 用 程序 进行 域名 解析 时 使 用 的 解析 库 ， 会 以 
/etc/resolv.conf 为 准 取 得 日 的 DNS 服务 器 。 有 具体 在 man resolv.conf 
中 有 下 列 说 明 ， 请 留意 有 关 同 时 指定 多 个 DNS 服务 器 的 说 明 。 
name server (域名 服务 器 〉 的 IP 地址 
name server 的 网 络 上 的 IP 地 址 (采用 圆 点 记 法 ) ， 可 以 被 解析 。 最 多 


有 MAXNS 台 目前 为 3 台 ， 具 体 请 查看 <resolv.h>) 可 以 被 列 出 来 ， 
个 name server 都 对 应 有 name server 关键 字 ， 在 列 出 多 个 name servers 


时 ， 解 析 器 将 会 按照 所 列 出 的 顺序 解析 这 些 name server 〈 轮 询 ) 。 当 

name server 为 空 时 ， 默 认 使 用 本 地 的 name server (这 里 使 用 的 算法 如 

下 : 首先 尝试 访问 name server， 辱 访问 超时 ， 则 尝试 访问 下 一 条 name 
server， 直 到 最 后 一 条 。 至 此 还 未 出 现 应 答 的 情况 下 ， 将 重复 查询 所 有 
的 name server， 直 到 达到 最 大 重 试 次 数 。) 


ee 引 自 man resolv.conf 


DNS 服 务 器 1 DNS 服 务 器 2 
192.168.0.201 192.168.0.202 


| /etc/resolv.conf | 
nameserver 192.168.0.201 
nameserver 192.168.0.202 


三 


图 3.1.1 两 台 DNS 服务 器 的 拓扑 结构 
解析 库存 在 的 问题 


因为 事先 指定 了 多 台 DNS 服务 器 ， 大 一 台 DNS 服务 器 宕 机 ， 也 不 影响 
域名 的 解析 。 


但 是 ,“ 知 访问 超时 ， 则 尝试 解析 下 一 条 name server” 这 一 行为 可 能 会 市 
来 一 些 问 题 。 若 首 条 指定 的 DNS 服务 嚣 宕 机 ， 那 必须 要 等 超时 过 后 

(默认 为 5 秒 ) 才能 轮 到 下 一 条 服务 器 。 这 个 等 待 的 时 间 对 于 服务 器 集 
群 来 说 是 造成 性 能 下 降 的 原因 ， 下 面 以 一 个 简单 的 邮件 服务 器 (Mail 
Server) 为 例 来 说 明 。 


性 能 下 降 的 危险 性 .…… 以 邮件 服务 器 为 例 

邮件 服务 器 在 发 出 邮件 时 ， 将 访问 两 次 DNS， 如 下 所 不: 

四 查询 目的 地 址 的 域名 所 对 应 的 MX 记录 

四 从 MX 的 结果 中 查询 A 记录 以 获取 目标 服务 器 的 卫 地 址 


例如 ， 假 设 此 邮件 服务 器 在 1 小 时 内 必须 发 送 1000 封 邮 件 ， 那 么 最 低 
也 要 每 3 秒 发 送 一 封 。 若 ect/resolv.conf 指定 的 DNS 服务 器 有 一 台 停 止 
工作 ， 那 么 每 次 发 送 都 将 出 现 5 秒 钟 的 超时 时 间 ， 即 送出 该 信 可 能 需要 
花费 10 秒 钟 ， 这 样 一 个 小 时 能 够 处 理 的 邮件 量 也 就 360 封 而 已 ， 处 理 
性 能 还 不 到 期 望 值 的 一 半 。 


这 个 例子 虽然 有 点 极端 ， 但 很 能 说 明 即 使 引入 高 性 能 服务 右 ， 也 不 能 阻 
挡 一 台 DNS 发 生 故 障 时 造成 的 性 能 下 降 。 


DNS 故障 会 造成 很 大 的 影响 


性 能 下 降 时 不 会 出 错 ， 因 此 故障 无 法 被 及 时 发 现 。 在 上 述 邮 件 服务 器 的 
例子 中 ， 即 使 邮件 服务 器 的 性 能 显著 下 降 ， 邮 件 发 送 工作 也 能 完成 ， 系 
统 并 未 停止 运作 。 因 此 当 管 理 人 员 察觉 到 邮件 服务 器 性 能 下 降 而 去 调查 
A 
J 错误。 


DNS 服务 器 的 故障 不 仅 影 响 极 大 ， 而 且 故 障 原因 的 确定 也 很 费时 间 ， 
因此 一 定 要 多 加 注意 。 
3.1.3 ”基于 服务 器 集群 的 DNS 宛 余 


如 前 所 述 ， 解 析 库 (DNS 客户 端 ) 在 察觉 到 DNS 服务 器 异常 时 ， 除 了 
ed 
于 服务 絮 。 


基于 服务 器 集群 的 元 余 将 会 实施 DNS 服务 器 端 不 下 线 的 原则 。 下 文 将 
人 


3.1.4 使 用 VRRP 的 拓扑 结构 


图 3.1.2 是 使 用 VRRP 实现 DNS 服务 器 元 余 的 拓扑 结构 。 图 中 仅 将 
Web 服务 器 及 邮件 服务 器 在 /etc/resolv.conf 中 设 定 为 

VIP 〈192.168.0.200) 。VIP 后 端 则 是 两 台 DNS 服务 器 ， 其 经 由 VIP 实 
现 了 宛 余 。 


图 3.1.2 的 结构 中 利用 了 第 1 章 介 绍 的 keepalived， 各 DNS 服务 器 都 预 
先 安装 了 keepalived。 下 面 将 以 代码 清单 3.1.1 为 例 来 启动 
keepalived.conf， 首 先 启动 的 服务 器 将 作为 Active 服务 器 被 分 配 

VIP 〈192.168.0.200) 。 在 两 台 服 务 器 都 启动 的 情况 下 ， 关 闭 Active 服 
务 器 ， 即 可 确认 是 否 能 够 正常 启动 故障 转移 。 


DNS2 


T92168:0209 


Web 服务 器 
192.168.0.1/24 
图 3.1.2 使 用 VRRP 的 元 余 
代码 清单 3.1.1 DNS 服务 器 的 keepalived.conf 


vrrp_instance DNS { 
state BACKUP 


interface eth6 

garp_master delay 5 

virtual router id 266 

priority 166 

nopreempt 

advert int 1 

authentication { 
auth_type PASS 
auth_pass HIMITSUDESU 

} 

virtual ipaddress { 
192.168.6.2606/24 dev eth0 

} 

} 


在 该 状态 下 ， 当 Active 服务 器 的 keepalived 停止 时 会 发 生 故 障 转移 ， 但 
并 未 发 生 DNS 服务 的 故障 转移 。 因 此 需要 使 用 如 代码 清单 3.1.2 所 不 的 
健康 检查 脚本 。 在 代码 清单 3.1.2 的 脚本 中 ， 每 5 秒 都 会 使 用 dig 命令 
确认 一 下 目 身 的 DNS 情况 ， 徊 dig 命令 异常 结束 ， 则 keepalived 就 会 
停止 ， 这 样 当 DNS 服务 器 不 可 用 时 也 能 发 生 故 障 转移 。 


代码 清单 3.1.2 ”dns-check.sh 


#!/bin/sh 
while true; do 
/usr/bin/dig +time=661 +tries=3 @127.0.060.1 localhost.1localnet 
if [ “6” -ne “$?” ]; then 
/etc/init.d/keepalived stop 
exit 


fi 
sleep 5 
done 


在 某 些 情况 下 ， 当 主 DNS 服务 器 停止 工作 时 ， 可 能 无 法 通过 寺 虚 拟 IP 让 
Ee 0 DNS 服务 器 来 完成 工作 (会 提示 超时 )〉 ， 这 种 问题 
支 护 么 解雇 昵 ? 


鉴于 DNS 服务 器 的 BIND1 会 在 系统 启动 时 通过 分 配 到 网 卡 卫 地 址 来 
接收 请 求 。 因 此 ， 即 便 在 BIND 运行 过 程 中 被 动态 分 配 了 IP 地址 ， 世 
0 IP 地 址 的 DNS 请 求 。 所 以 在 发 生 故 障 转 移 时 ， 必 
须 重 启 BIND。 


| 1 BIND(Berkeley Internet Name Domain) 是 类 UNIX 系统 上 实现 的 域名 解析 服务 的 软件 包 。 


因为 Keepalived 在 发 生 故 障 转 移 时 可 以 运行 任意 命令 ， 因 此 可 以 编辑 
keepalived.conf 文件 的 vrrp_instance 部 分 ， 添 加 下 面 的 语句 来 解决 这 个 
问题 。 


notify master "/etc/init.d/named restart" 


3.1.5 DNS 服务 右 的 负载 分 发 


在 Active/Backup 的 结构 中 ， 两 台 DNS 服务 器 实际 只 有 一 台 工 作 。 为 了 
充分 利用 服务 器 资源 ， 接 下 来 将 介绍 如 图 3.1.3 所 示 的 Active/Active 的 
负载 分 发 结构 。 


因为 是 同一 分 段 
{ Segment ) 所 以 使 用 DSR 


Web 服务 器 DNS 服务 器 DNS 服务 器 
192.168.0.1/24 192.168.0.201/24 { DNS1 )| |192.168.0.202/24 ( DNS2 ) 


图 3.1.3 DNS 服务 器 负载 分 发 的 拓扑 结构 (Active/Active 拓扑 结构 ) 


与 Active/Backup 的 拓扑 结构 不 同 的 是 这 里 利用 了 负载 均衡 器 。 
Active/Backup 的 结构 中 ， 每 个 DNS 服务 器 都 安装 了 keepalived 并 为 其 
分 配 了 VIP ; Active/Active 的 拓扑 结构 中 则 将 VIP 分 配给 了 负载 均衡 
器 。 这 无 需 更 改 Web 服务 器 的 设 定 ， 只 需 像 之 前 那样 预先 将 VIP 指定 
到 ect/resolv.conf 中 即 可 。 由 于 同一 子 网 上 的 负载 分 发 不 便 选 择 NAT 拓 
扑 结构 ， 因 此 应 该 使 用 DSR 拓扑 结构 。 另 外 ， 在 各 个 DNS 服务 器 中 ， 
为 了 能 够 处 理发 往 VIP 的 数据 帧 ， 需 要 将 VIP (192.168.200/32) 分 配 
给 回 传 接口 (Loopback Interface) ， 或 者 使 用 iptables 进行 重 定 问 
(Redirect) 操作 等 。 


这 里 在 Linux 中 使 用 了 IPVS 及 keepalived 来 搭建 负载 均衡 器 ， 具 体 请 
参考 代码 清单 3.1.3 中 keepalived.conf 的 内 容 。 由 于 keepalived 并 不 支持 
DNS 的 健康 检查 ， 可 以 使 用 dig 命令 通过 确认 MISC_CHECK 状态 来 实 
现 。 


代码 清单 3.1.3 ”负载 均衡 器 的 keepalived.conf 


virtual server group DNS { 
192.168.6.2606 53 
} 
virtual server group DNS { 
delay_ loop 5 
lvs sched rr 
lvs_method DR 
protocol UDP 
real server 192.168.0.201 53 { 
weight 1 
MISC CHECK { 
misc path "/usr/bin/dig +time=661 +tries=3 @192.168.060.2061 
localhost.1localnet" 
misc timeout 5 
} 


} 
real server 192.168.0.202 53 { 


weight 1 
MISC CHECK { 
misc path "/usr/bin/dig +time=661 +tries=3 0192.168.60.262 
localhost.1localnet" 
misc timeout 5 
} 
} 


| 
3.1.6 小结 


DNS 服务 器 在 很 多 不 显眼 的 地 方 进行 着重 要 的 工作 。DNS 服务 器 所 用 
的 软件 通常 是 比较 稳定 的 ， 只 有 极 少数 会 出 现 意 外 故障 ， 因 此 人 们 对 
DNS 服务 器 的 故障 应 对 可 能 并 没有 做 过 多 考虑 。 


然而 一 旦 DNS 服务 器 发 生 故 障 ， 仅 查 明 原 因 往往 都 会 花费 很 多 时 间 ， 
为 了 不 在 故障 发 生 时 浪费 太 多 精力 ， 还 是 有 必要 提前 做 好 准备 的 。 
3.2 存储 服务 占 的 见 余 
像 


3.2.1 存储 服务 器 的 故 隐 排解 


存储 服务 器 中 存放 了 大 量 的 文件 ， 知 硬盘 故障 造成 数据 丢失 ， 恢 复 是 很 
腑 烦 的。 为 了 能 有 效 恢复 数据 ， 及 时 备份 是 常规 手段 ， 但 要 恢复 所 有 文 
件 依然 很 花 时 间 。 而 且 一 旦 存储 服务 器 发 生 故 障 ， 涉 及 范围 通 币 会 很 
所 以 一 般 会 使 用 RAID， 这 样 即便 人 硬盘 发 生 故 障 ， 数 据 也 不 会 丢 


利用 DRBD 实现 镑 


造成 故障 的 原因 也 不 仪 仪 是 人 硬盘 问题 ，RAID 控制 器 也 有 可 能 发 生 故 
障 。 当 RAID 控制 器 发 生 故 障 时 ， 如 果 足 够 兽 运 ， 只 需 更 换 RAID 控制 
铝 即 可 解决 。 大 造成 了 无 法 写 入 便 盘 等 情况 ， 则 会 有 丢失 数据 的 危险 。 


当然 与 磁盘 相 比 ，RAID 控制 器 发 生 故 障 的 概率 极 低 ， 但 为 了 在 发 生 故 
障 时 保护 数据 ， 也 可 以 考 夸 准备 两 人 台 存 储 服务 喜 进 行 元 余 处 理 。 


3.2.2 ”存储 服务 器 同步 的 难 操 
对 存储 服务 絮 进 行 见 余 的 难点 在 于 需要 持续 同步 两 台 服 务 器 的 数据 。 作 


为 最 易 实 施 的 方法 ， 可 以 采用 “将 数据 上 传 两 份 分 别 到 两 个 服务 器 上 ”的 
方式 ， 但 持续 确保 数据 的 完整 性 较为 困难 。 如 果 上 传 程序 不 兼容 ， 则 有 


可 能 导致 只 将 文件 传 给 了 其 中 一 台 服 务 右 ， 为 外 操作 的 失误 也 可 能 会 造 
成 只 有 一 台 服 务 器 的 数据 进行 了 更 新 。 


当 文 件数 及 容量 较 少 的 时 候 ， 尚 可 利用 简单 的 脚本 来 机 械 地 检查 一 致 
性 ， 但 当 有 成 千 上 万 个 文件 时 ， 数 据 容量 高 达 数 特 GB 〈Gigabyte) ， 
这 种 情况 下 要 做 到 此 类 检 碍 就 很 困难 。 在 无 法 检查 一 致 性 的 情况 下 ， 和 在 
继续 依赖 此 设备 进行 同步 ， 可 信赖 性 就 会 大 大 降低 。 

3.2.3 DRBD 

在 两 台 服 务 器 上 以 文件 为 单位 同步 磁盘 检查 一 致 性 时 ， 文 件数 越 多 搜索 
目录 就 越 花 时 间 。 在 这 种 情况 下 ， 妆 磁盘 超过 负载 时 ， 整 个 服务 器 的 性 
能 就 会 大 幅 下 跌 ， 而 使 用 DRBD (Distributed Replicated Block Device， 
分 布 式 复制 块 设备 )“ 技术 即 可 解决 该 问题 。 


2 URL http://www.drbd.org/ 


以 下 是 从 DRBD 官网 引用 的 介绍 。 
DRBD 技术 为 实现 高 可 用 的 集群 提供 了 专属 的 块 设备 。 使 用 专用 的 
网 络 ， 可 以 在 两 台电 脑 的 块 设备 之 间 镜 像 数 据 。 简 单 理解 为 网 络 上 
的 RAID1 结构 即 可 。 
es 引 自 http://www.drbd.jp/ 
DRBD 架构 


如 图 3.2.1 所 示 ，DRBD 由 Master 服务 器 及 备份 服务 器 组 成 ， 分 为 以 下 
两 种 拓扑 结构 : 


。 内 核 模块 (设备 驱动 程序 ) 
。 Userland 工具 (控制 程序 ) 


DRBD 并 非 以 文件 单位 来 传送 数据 ， 而 是 针对 块 设备 进行 实时 更 新 。 
此 在 文件 建立 或 更 新 时 ， 无 需 理会 DRBD 及 备份 服务 器 的 存在 。 


DRBD 的 镜像 是 Active/Backup 的 拓扑 结构 。 可 以 对 Active 端的 块 设备 


进行 数据 的 读 写 ， 而 Backup 端的 块 设备 则 不 会 被 访问 到 。 但 在 8.0.0 版 
本 以 后 ， 通 过 使 用 OCFS (Oracle Cluster File System ) 及 GFS (Global 
File System) 等 的 文件 集群 系统 ， 开 始 文 持 Active/Backup 的 拓扑 结 

构 。 虽 然 本 书 执笔 时 《2008 年 5 月) 的 最 新 版 是 8.2.5， 但 笔者 使 用 的 
依然 是 0.7 版 的 环境 ， 这 是 因为 当时 引入 这 项 技术 时 最 新 版 是 0.7。 


以 下 介绍 的 拓扑 结构 以 笔者 系统 中 正在 运行 的 DRBD 0.7 版 拓扑 结构 为 
准 ， 关 于 8.2 版 中 更 新 的 功能 及 设 定 也 会 随时 补充 说 明 。 另 外 ，DRBD 
0.7 版 已 经 于 2008 年 10 月 停止 维护 ， 在 此 之 后 知 要 引入 这 项 技术 ， 请 
使 用 最 新 版 本 。 


3.2.4 DRBD 的 设置 与 启动 


代码 清单 3.2.1 是 运行 DRBD 所 需 的 最 低 限 度 的 设置 。 有 具体 请 在 
/etc/drbd.conf 文件 中 建立 Master 服务 器 及 备份 服务 器 。 


代码 清单 3.2.1 drbd.conf 


resource re ft 
protocol A; 
on WwWS1 { 
device /dev/drbd6 
disk /dev/sdb1l; 
address 192.168.6.2601:7789 ; 
meta-disk internal; 
} 
on ws2 { 
device /dev/drbd®e; 
disk /dev/sdb1; 
address 192.168.6.202:7789 ; 
meta-disk internal; 
} 
} 


由 于 仪 做 了 最 低 限 度 的 设 定 ， 所 以 代码 清单 3.2.1 显得 很 精简 。 有 基体 各 
个 项 目的 意义 请 参考 表 3.2.1。 


表 3.2.1 drbd.conf 的 配置 项 目 


指定 数据 传送 的 协议 。 可 以 指定 为 A、B、C 三 种 ， 具 体 意义 如 下 
。protocol A: 本 地 磁盘 写 入 结束 ， 数 据 被 发 往 TCP 组 冲 时 ， 表 示 写 入 操作 完 
成 (重视 性 能 的 异步 传输 ) 

。protocol B: 本 地 磁盘 写 入 结束 ， 数 据 到 达 远 程 主机 时 ， 表 示 写 入 操作 完成 
《 介 于 A 与 C 之 间 ) 

。protocol C: 远程 主机 的 磁盘 上 也 完成 号 入 操作 时 ， 表 示 写 入 操作 完成 〈 重 
视 可 靠 性 的 同步 传输 ) 


定义 各 个 主机 的 资源 的 块 。 这 里 指定 的 ws1 与 ws2 是 两 个 主机 名 。 通 过 
uname -n 的 输出 结果 可 判断 目标 主机 《以 on 开头 定义 的 主机 名 ) 是 否 取得 
了 期 望 的 配置 结果 


指定 DRBD 的 逻辑 块 设备 。 在 此 指定 的 是 运行 mkfs 和 mount 的 块 设备 


指定 想 要 镜像 的 物理 设备 。 可 以 指定 任意 块 设备 ， 若 指定 回 
(Loopback Device ) ， 则 需要 注意 可 能 产生 的 问题 


指定 数据 同步 所 等 待 的 下地 址 及 其 端口 号 。 每 个 资源 需要 指定 不 同 的 端口 
号 


指定 存储 元 数据 的 设备 。 已 经 指定 internal 的 情况 下 ， 需 要 指定 disk 的 块 设 
| 在 8.2 版 中 ， 根 据 块 设备 的 大 小 元 数据 的 大 小 
会 > 忆 AF 


启动 DRBD 的 Master 服务 器 


接 下 来 将 启动 DRBD， 首 先 在 Master 上 进行 以 下 操作 ， 图 3.2.2 是 实际 
操作 的 状态 。 


@ 月 动 DRBD 


四 切换 为 Primary 状态 


全 在 /dev/drbd0 中 建立 文件 系统 
四 将 /devdrbd0 挂 载 (Mount) 到 /mnt/drbd0 


wWSs1:~# /etc/init.d/drbd start 
Starting DRBD resources : [de se ne ]. 
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DRBD's startup script waits for the peer node(s) to appear. 

- In case this node was already a degraded cluster before the 
reboot the timeout is 6 seconds. [degr-wfc-timeout] 

- If the peer was available before the reboot the timeout will 
expire after 6 seconds. [wfc-timeout] 
(These values are for resource 'r6@'; 6 sec -> wait forever) 

To abort waiting enter 'yes' [ 5]:yes 


Wsl:~# drbdadm -- --do-what-I-say primary all (6.7 版 

Ws1l:~# drbdadm -- -0 primary all (8.2 版 

ws1l:~# mkfs /dev/drbd6 

mke2fs 1.46-WNIP (14-Nov-2666 ) 

< 中 间 省 略 > 

This filesystem will be automatically checked every 38 mounts or 
186 days, whichever comes first. Use tune2fs -c or -i to override. 
WSs1:~# mount /dev/drbde /mnt/drbde/ 


图 3.2.2 DRBD 的 行为 


启动 DRBD 后 ， 首 先 请 连接 到 目标 镜像 。 在 第 一 次 安装 时 没有 对 象 存 
在 的 情况 下 ， 会 出 现 “To abort waiting enter 'yes' ”这 条 信息 并 
进入 等 竺 超时， 这 时 输入 “yes ”以 中 断 。 启 动 完 成 后 ，DRBD 

为 “Secondary 状态 ”， 此 为 等 待 数据 从 Primary 状态 的 DRBD 流入 的 答 
机 状态 ， 该 状态 下 无 法 写 入 及 读 取 块 设备 。 


为 了 将 文件 系统 进行 挂 载 操 作 ， 需 要 使 用 drbdadm 命令 切换 到 Primary 
状态 。 通 稼 切换 到 Primary 状态 需要 使 用 drbdadm 的 primary 命令 ， 
但 在 初次 建立 的 情况 下 ， 还 必须 开启 0.7 版 本 的 --do-what-I-say 选 
项 ， 或 者 8.2 版 本 的 -o 选项 。 成 功 切 换 到 Primary 状态 后 ， 即 可 对 
/dev/drbd0 和 /dev/drbd1 进行 相同 的 操作 了 。 


启动 DRBD 的 备份 服务 器 


同样 在 备份 服务 器 上 启动 DRBD， 至 此 Master 服务 器 与 备份 服务 器 的 
同步 就 开始 了 。 有 具体 情况 可 以 参考 图 3.2.3 进行 确认 。 同 步 工 作 完 成 后 
安装 也 就 结束 了 。 如 果 在 Master 服务 器 的 /mnt/drbd0 中 建立 文件 并 写 
入 数据 ， 数 据 就 会 被 传送 到 备份 服务 器 。 


WS2:~# /etc/init.d/drbd start 

Starting DRBD resources: [de se ne ]. 

Ws2:~# cat /proc/drbdop 

version: 6.7.25 (api:79/proto:74) 

GIT-hash: 3a9c7c136a9af8df921b3628129dafbe212ace9f build by root@ 
WwWS2，2067-12-31 22:20:38 


0@: cs:SyncTarget st:Secondary/Secondary ld:Inconsistent 
ns:0 nr:528 dw:528 dr:6 al:6 bm:6 10:0 pe:6 ua:6 ap:6 
] sync'ed: 0.7% (666832/6673668 )K 
finish: 6:27:47 speed: 264 (264) K/sec 


图 3.2.3 确认 DRBD 的 同步 


3.2.5 DRBD 的 故障 转移 


DRBD 在 Master 服务 器 发 生 错 误 时 ， 并 不 会 目 动 切换 到 备份 服务 器 ， 
因此 需要 使 用 keepalived 来 实现 故障 转移 。 


手动 切换 


在 实现 自动 进行 故障 转移 前 ， 首 先 请 答 试 手动 切换 。 为 了 实现 故障 转 
移 ， 需 要 将 Master 的 DRBD 切换 为 Secondary 状态 。 为 避免 块 设备 挂 
载 失 败 ， 需 要 事先 停止 NFS 服务 器 〈 即 网 络 文 件 服务 器 ) 并 取消 挂 
载 。 本 处 理 的 脚本 如 代码 清单 3.2.2 所 示 ， 该 脚本 应 该 保存 在 两 台 服 务 
器 的 /usr/local/sbin/drbd-backup 中 。 


代码 清单 3.2.2 drbd-backup 


#!/bin/sh 
/etc/init.d/nfs-kernel-server stop 
umount /mnt/drbd6 


drbdadm secondary all 


将 备份 服务 器 作为 Master 服务 器 使 用 时 ， 需 要 将 DRBD 切换 到 Primary 
状态 ， 并 在 确认 挂 载 块 设备 后 启动 NFS 服务 器 。 本 脚本 如 代码 清单 
3.2.3 所 示 ， 保 存在 两 台 服 务 器 的 /usr/local/sbin/drbd-master 中 。 


代码 清单 3.2.3 drbd-master 


#1/bin/sh 
drbdadm primary all 
mount /dev/drbd6 /mnt/drbd6 


/etc/init.d/nfs-kernel-server start 


为 了 更 加 容易 地 确认 数据 同步 ， 需 要 事先 在 Master 的 /mnt/drbd0 中 创 
建 恰当 的 文件 。 然 后 在 Master 服务 器 上 执行 drbd-backup 命令 ， 将 两 
台 服 务 器 切换 为 Secondary 状态 。 最 后 在 备份 服务 器 上 执行 drbd- 
master 命令 ， 在 切换 到 Primary 状态 后 ，/dev/drbd0 就 会 被 挂 载 到 
/mnt/drbd0 上 。 


至 此 应 该 已 经 在 Master 服务 器 上 建立 了 适当 的 文件 。 辱 以 后 Master 服 
务 嚣 发生 故障 ， 将 上 自动 执行 这 些 步 又 触 友 故障 转移 。 下 文 将 介绍 利用 
keepalived 的 VRRP 功能 来 实现 NFS 服务 器 风 余 的 方法 。 


keepalived 的 配置 


图 3.2.4 是 将 NFS 服务 器 通过 VRRP 实现 宛 余 的 例子 。 代 码 清 单 3.2.4 
是 本 拓扑 结构 中 keepalived 的 配置 。VIP 为 192.168.0.200，NFS 客户 端 
192.168.0.200:/mnt/drbd0/ 已 经 挂 载 在 了 NEFS 上 。 即 使 服务 器 发 生 故 障 
转移 ，NFS 客户 端 也 无 需 重 新 挂 载 。 


Master 服务 器 备份 服务 器 
192.168.0.201/24 192.168.0.202/24 


Master 服务 器 
192.168.0.201/24 


备份 服务 器 
192.168.0.202/24 


ps 


\V/ 
VIP 


192.168.0.200/24 


VIP 
192.168.0.200/24 


图 3.2.4 NES 服务 器 的 见 余 


代码 清单 3.2.4 ”keepalived.conf (DRBD 用 ) 


vrrp_instance DRBD { 
state BACKUP 
interface etho 
garp_master delay 5 
virtual router id 266 
priority 166 
nopreempt 
advert int 1 
authentication { 
auth_type PASS 
auth_pass HIMITSU 
} 
virtual ipaddress { 
192.168.0.2600/24 dev eth0 
} 
notify master "/usr/local/sbin/drbd-master" 
notify_ backup "/usr/local/sbin/drbd-backup" 
notify fault "/usr/local/sbin/drbd-backup" 


在 此 初次 出 现 的 参数 如 表 3.2.2 所 示 。 
表 3.2.2 ”keepalived.conf 的 配置 项 目 〈 新 出 现 的 ) 


jopreempt ”| 将 VRRP 的 抢占 模式 设 为 无 效 。 关 于 抢占 模式 的 详细 介绍 请 参考 第 1 
Preemp 章 (其 目标 是 避免 任何 不 必要 的 故障 切换 ) 


当 VRRP 为 Master 状态 时 ， 指 定 想 要 执行 的 命令 
notify_backup | 当 VRRP 为 备份 状态 时 ， 指 定 想 要 执行 的 命令 
notify_fault “| 当 网 络 接口 的 链接 断 开 时 ， 指 定 想 要 执行 的 命令 


notify_master 及 notify_backup 已 经 在 之 前 的 代码 清单 3.2.2、 代 码 清单 
3.2.3 中 进行 了 指定 ， 因 此 在 故障 转移 时 可 以 更 改 DRBD 的 状态 。 在 本 
设 定 中 ， 当 备份 服务 器 切换 为 Master 服务 器 时 ，drbd-master 会 被 执行 
并 触发 故障 转移 。 


但 万 一 keepalived 停止 运作 ， 将 会 导致 notify_master 及 notify_backup 的 
脚本 无 法 运行 。 若 Master 的 keepalived 停止 运作 ，Master 的 DRBD 将 
在 Primary 的 状态 下 发 生 故 障 转移 ， 进 而 就 会 导致 备份 服务 器 的 drbd- 
master 出 现 错误 。 因 此 ， 在 keepalived 停止 运作 时 ， 一 定 要 确保 执行 
drbd-backup 的 脚本 。 


利用 daemontools 来 控制 keepalived 


为 了 解决 该 问题 ， 使 用 代码 清单 3.2.5 作为 keepalived 的 启动 脚本 。 但 
此 处 并 非 直接 启动 /etc/init.d/keepalived， 而 是 使 用 daemontools 的 run 脚 
本 。 具 体 将 在 5.4 节 中 讲解 ，daemontools 中 通过 这 样 的 脚本 可 以 控制 守 
护 程 序 的 启动 。 在 本 节 中 ， 我 们 将 使 用 wait 等 得 keepalived 结 

束 ，wait 完毕 后 就 会 执行 drbd-backup 脚本 。 由 于 从 supervise 发 来 的 


信号 会 经 由 trap 命令 传送 到 keepalived 中 ， 因 此 同样 也 可 利用 
daemontools 来 直接 控制 keepalived 的 操作 。 通 过 使 用 此 工具 ， 即 便 
keepalived 由 于 什么 原因 停止 运作 了 ， 也 一 定 可 以 执行 drbd-backup 脚 
本 


代码 清单 3.2.5 “keepalived 的 启动 脚本 


#!/bin/sh 

[ -f /var/run/vrrp.pid ] && exit 
exec 2>&1 

trap 'kill -TERM $PID' TERM 
trap 'kill -HUP $PID' HUP 

trap 'kill -INT $PID' INT 


/usr/local/sbin/keepalived -n -S 1 --vrrp & 


/usr/local/sbin/drbd-backup 


3.2.6 NEFS 服务 右 故 障 转 移 时 的 注意 事项 


由 于 DRBD 所 镜像 的 设备 是 NFS 共有 的 ， 因 此 不 能 在 Master 服务 器 上 
启动 NFS 服务 器 。 实 施 NFS 服务 器 的 元 余 时 有 可 能 出 现 不 同 于 Web 服 
务 器 及 邮件 服务 器 宛 余 时 所 遭遇 的 问题 ， 因 此 需要 多 加 留意 。 因 故障 转 
移 而 成 为 新 Master 的 NFS 服务 器 并 没有 被 任何 客户 端 所 挂 载 ， 若 此 时 
没有 问 NFS 客户 端 声明 故障 转移 导致 了 服务 器 切换 ，NFS 客户 端 就 会 
认为 已 经 进行 了 挂 载 并 访问 文件 ， 但 这 时 NFS 服务 器 则 会 认为 没有 挂 
Ra 从 而 拒绝 该 请 求 。 为 了 解决 该 问题 ， 可 使 
Ch 


e。 同步 /var/lib/nfs/ 


NFS 服务 器 的 连接 信息 被 存储 在 /var/lib/nfs/ 下 ，DRBD 将 该 参数 

进行 镜像 操作 ， 以 便 在 故障 转移 时 能 实现 正常 切换 。 但 根据 分 发 策 
略 (Distribution)〉 ，NEFS 服务 器 的 局 动 脚本 中 有 时 是 使 

用 exportfs 命令 来 清除 连接 信息 的 ， 因 此 需要 额外 创建 不 清除 连 
接 信息 的 脚本 ， 并 在 发 生 故 障 转移 时 通过 该 脚本 局 动 NFS 服务 器 


。 使 用 nfsd 文件 系统 


nfsd 文件 系统 Linux 的 固有 功能 ， 专 门 被 用 来 文 持 NFS 服务 器 的 元 
余 。 在 执行 mount -t nfsd nfsd /proc/fs/nfsd 命令 的 状态 下 
启动 的 NFS 服务 器 并 没有 使 用 /varvlibmfs/ 目录 ， 因 此 即便 是 完 
陌生 的 NFS 客户 端 发 来 访问 请 求 ， 也 会 像 该 客户 端 已 经 挂 载 了 那 
日 当 便 入 


3.2.7 备份 的 必要 性 


即便 在 DRBD 中 将 磁盘 做 了 镜像 处 理 ， 也 依然 不 能 保证 100% 的 安全 ， 
例如 将 文件 误 删 后 依旧 难以 找 回 。 镜 像 是 DRBD 的 优点 ， 但 万 一 文件 
被 误 删 ， 就 立刻 会 被 反映 到 备份 服务 器 上 去 ， 从 这 一 层面 上 来 看 ， 镜 像 
也 是 一 个 致命 的 弱点 。 因 此 虽然 很 花 时 间 ， 但 还 是 做 好 最 坏 的 打算 ， 务 
必 做 好 数据 的 备份 ， 不 过 也 不 用 每 天 都 进行 备份 。 


3.3 网 络 的 元 余 驱动 绑 定 、RSTP 

3.3.1 LUL2 上 部 件 的 元 余 

前 两 章 以 及 第 3 章 的 前 几 节 都 在 探讨 OSI 参考 模型 下 的 第 三 层 (L3=IP 
层 ) 与 第 七 层 〈L7= 应 用 层 ) 的 宛 余 问题 。 但 若 下 层 的 物理 网 络 〈L1= 
物理 层 ) 或 以 太 网 (Ethernet) 级 别 的 通信 发 生 故 障 ， 即 便 上 层 正 常 运 
作 ， 也 会 导致 整个 系统 的 故障 。 

本 节 中 将 讲解 在 L1 及 L2 的 结构 元 素 发 生 故 障 时 系统 也 不 会 停止 的 元 
余 策略 。 通 过 对 LUL2 做 出 元 余 处 理 ， 不 仅 能 避免 故障 ， 还 能 细 化 系统 
维护 层面 的 管理 3 。 


3 例如 在 笔者 管理 的 环境 中 ， 就 曾 对 所 有 的 交换 机 及 负载 均衡 器 兼 路 由 器 都 做 过 不 间断 的 处 
理 。 


3.3.2 ”故障 点 
在 LWL2 的 结构 元 素 中 ， 通 常 是 以 下 原因 导致 故障 的 : 


@@LAN 网 线 

四 NIC (网 卡 ) 

全 网 络 交换 机 的 端口 
@@ 网 络 交 换 机 


LAN 网 线 故 障 是 因为 断 线 或 线 统 接 触 不 良 造 成 的 ， 以 笔者 的 经 验 来 
看 ， 通 党 表现 为 网 络 连接 的 上 行 及 下 行 都 出 现 问 题 。 与 网 卡 连接 的 网 络 
交换 机 的 特定 端口 也 有 可 能 发 生 故 障 。 当 然 网 络 交 换 机 目 身 也 有 可 能 发 
和 
2 


接 下 来 将 仔细 探讨 各 故障 元 素 。 @ 一 鼻 是 服务 需 与 网 络 交换 机 之 间 的 
连接 方面 的 故障 ， 在 此 统称 为 “连接 故障 ”。 


而 交换 机 与 交换 机 之 间 也 会 发 生 @ 和 @ 那样 的 故障 ， 在 此 统称 为 “ 交 
换 机 间 的 连接 故障 ”。 


像 @ 那样 的 网 络 交 换 机 故障 则 被 称 为 “交换 机 故障 ”。 
下 文 将 会 就 如 何 避 免 这 些 故 障 进行 一 系列 探讨 。 
3.3.3” 链 路 元 余 与 驱动 绑 定 


为 避免 连接 故障 ， 需 要 将 服务 器 与 交换 机 之 间 的 连接 进行 元 余 处 理 。 也 
就 是 说 ， 需 要 在 服务 器 上 准备 多 块 NIC 网卡) ， 同 时 将 LAN 网 线 连 
接 到 这 些 网 卡 上 。 当 然 也 不 仅仅 只 是 准备 多 块 网 卡 而 已 ， 为 了 能 使 用 这 
些 网 卡 进行 通信 ， 还 需 对 每 个 网 卡 分 配 IP 地 址 。 这 样 一 来 ， 每 当 连 接 
到 网 络 的 主机 之 间 进 行 通信 时 ， 都 需要 诊断 哪个 网 卡 可 用 ， 据 此 来 切换 
目的 地 址 ， 但 这 几乎 是 无 法 做 到 的 。 为 了 解决 该 问题 ，Linux 中 提供 了 
驱动 绑 定 (Driver Binding) 这样 的 工具 。 


驱动 绑 定 


驱动 绑 定 4 是 Linux 自 带 的 网 络 驱 动 的 组 件 之 一 。 驱 动 绑 定 将 多 块 物理 
网 卡 〈 物 理 NIC) 进行 托管 ， 以 作为 单 块 逻辑 网 卡 〈 逻 辑 NIC) 使 用 。 


4 关于 驱动 绑 定 ，Linux 内 核 的 附属 文档 是 最 主要 的 参考 信息 ， 请 在 kernel.org 下 载 所 发 布 的 
软件 包 ， 并 访问 其 中 的 Linux-2.6.X.X/Documentation/networking/bonding.text。 


逻辑 网 卡 不 但 可 以 作为 赋予 地 址 的 对 象 网 卡 来 使 用 ， 还 可 以 作为 Linux 
内 核 的 IP 别名 (IP Alias) 功能 、VLAN (Virtual LAN) 功能 、 桥 接 功 
能 等 的 对 象 网 卡 来 使 用 。 在 使 用 逻辑 网 卡 进 行 通信 时 ， 根 据 驱 动 绑 定 中 
的 设置 会 将 请 求 分 配 到 物理 网 卡 上 ， 并 检查 分 配 的 目标 物理 网 卡 是 否 存 
在 故障 ， 以 避免 将 请 求 分 配 到 有 故障 的 物理 网 卡 上 。 


驱动 绑 定 从 多 个 物理 网 卡 中 选择 一 个 用 于 通信 时 ， 可 使 用 多 种 模式 ， 具 
体 可 参考 表 3.3.1 的 选择 项 ”。 但 无 论 选择 哪个 模式 ， 若 物理 网 卡 发 生 
故障 ， 都 没 法 让 该 网 卡 恢复 使 用 。 


5 在 这 些 模式 中 ，active-backup 是 使 用 方法 最 简单 的 模式 ， 笔 者 管理 的 环境 中 使 用 的 就 是 
active-backup 模式 。 


表 3.3.1 驱动 绑 定 的 行为 模式 * 


EE 
根据 需要 送 达 的 数据 帧 切换 物理 网 卡 〈 轮 询 ) 


| 时 网卡 可 用 ， 则 只 使 用 该 网 卡 。 知 该 网 卡 发 生 故 障 ， 则 切换 到 下 
backup 


balance- “| 将 发 出 请 求 与 接收 请 求 的 MAC 地 址 进行 XOR ( 异 或 ) 运算 后 再 决定 使 
XOr 日 哪个 物理 网 卡 


ra et 出 后， 发送 到 所 有 物理 网 卡 上 ， 这 些 数据 帧 均 相 
802.3 使 用 IEEE 802.3ad 协议 ， 在 交换 机 之 间 动 态 创建 链 路 聚合 (Link 
.3ad 
Aggregation) 


选择 负荷 量 最 低 的 物理 网 卡 进行 发 送 。 接 收 请 求 使 用 特定 的 物理 网 卡 


模式 


balance- | 选择 负荷 量 最 低 的 物理 网 卡 进行 发 送 及 接收 


※ 引 自 linux 2.6.24 版 内 核 的 bonding.txt 文件 。 


驱动 绑 定 还 有 个 很 重要 的 参数 ， 可 以 监控 物理 网 卡 的 故障 。 有 MIHI 
(Media Independent Interface) 监控 和 ARP (Address Resolution 

Protocol) 监控 两 种 监控 种 类 可 供 选择 。 

MII 监控 是 监控 可 能 出 现 的 物理 网 卡 链 路 故障 〈Link Down) ， 虽 然 可 

ee 
(Link Up) 时 出 现 的 通信 故障 


6 在 笔者 管理 的 环境 中 确实 发 生 过 此 类 故障 ， 自 那 以 后 ， 笔 者 便 开始 使 用 ARP 监控 。 


ARP 监控 是 对 指定 的 设备 发 出 ARP 请 求 ， 通 过 是 否 接 到 回应 (Reply) 
来 进行 判断 。 因 为 是 通过 实际 进行 通信 来 进行 监控 ， 所 以 漏 检 故障 的 风 
险 很 低 ， 但 即便 目标 主机 有 回应 ， 知 不 能 正确 地 对 该 主机 发 出 ARP 请 
求 ， 也 会 导致 诊断 错误 。 为 了 降低 漏 检 的 风险 ， 可 通过 驱动 绑 定 对 ARP 
请 求 目 标 绑 定 多 个 卫 地 址 〈 最 多 16 个 ) 。 


3.3.4 交换 机 的 元 余 


即使 通过 使 用 驱动 绑 定 的 方式 绑 定 多 块 物理 网 卡 实现 了 元 余 ， 也 依旧 无 
法 解决 请 求 目标 为 同一 区 换 机 的 交换 机 故障 。 为 了 避免 发 生 交换 机 故 
障 ， 需 要 准备 多 人 台 交 换 机 ， 并 将 驱动 绑 定 的 物理 网 卡 连接 到 不 同 的 交换 
机 ， 这 样 交换 机 及 链 路 就 实现 了 如 图 3.3.1 的 @ 所 示 的 元 余 拓 扑 结构 “ 


”在 建立 此 拓扑 结构 时 ， 可 供 选 择 的 驱动 绑 定 模式 有 : active- -backup、 balance-tlb 、balance- 
alb。 在 此 应 用 balance-rr 及 balance-xor 会 导致 交换 机 混乱 ， 进 而 导致 通信 被 阻 断 。 


图 3.3.1 交换 机 及 链 路 的 元 余 拓 扑 结构 


成 功 将 各 个 服务 器 设备 的 网 线 连 接 到 其 他 的 交换 机 后 ， 便 完成 了 驱动 绑 
定 的 部 署 。 另 外 需要 在 两 台 交 换 机 之 间 准 备 LS1-2， 该 LS1-2 将 在 链 路 
故障 时 发 挥 作 用 。 


链 路 故障 时 的 行为 


如 果 交 换 机 之 间 的 连接 LS1-2 发 生 链 路 故障 ，svr1 与 svr2 之 间 的 通信 会 
怎么 样 呢 ? svrl 的 L1-1 发 生 故 障 时 的 情况 如 图 3.3.1 的 \textcircled{b} 
所 示 。 和 若 需 要 从 svrl 发 送 分 组 (Pocket) 到 svr2， 由 于 L1-1 无 法 使 

用 ， 因 此 使 用 L1-2 来 进行 传送 。 另 外 ， 因 为 能 够 确保 该 分 组 经 由 sw2 
传送 到 svr 2， 因 此 没有 发 生 问 题 。 


相反 ， 从 svr2 传送 到 svrl 的 分 组 则 既 有 可 能 经 由 L2-1 送出 ， 也 有 可 能 
经 由 LL2-2 送出 。 辱 从 L2-2 送出 ， 就 会 和 刚刚 一 样 经 由 sw2， 则 该 链 路 
可 用 ; 若 从 L2-1 送出 ， 则 由 于 无 法 使 用 L1-1， 将 无 法 到 达 svr1。 
此 ， 为 了 将 该 分 组 成 功 传送 到 sw2， 必 须要 在 路 由 器 之 间 连 接 LS1-2。 
交换 机 故障 时 的 行为 


通过 事先 准备 的 LS1-2， 即 便 链 路 发 生 故 障 ， 也 可 确保 svrl 及 svr2 的 运 


作 以 使 通信 维持 正常 。 但 和 若 交 换 机 发 生 故 障 该 如 何 是 好 呢 ? 以 下 将 探讨 
sw1 发 生 故 障 时 的 情况 。 


右 swl 友 生 故障 ， 则 与 链 路 故障 时 一 样 ， 可 通过 驱动 绑 定 确认 sw1 的 
链 路 是 否 可 用 来 进行 判断 。 与 链 路 故障 不 同 的 是 ， 需 要 同时 在 所 有 服务 
项 上 进行 判断 。 当 所 有 服务 器 都 不 使 用 swl 的 链 路 而 只 使 用 sw2 的 链 
路 时 ， 就 能 让 通信 维持 正常 运作 。 

交换 机 间 遭 遇 连 接 故 障 时 的 情况 

最 后 来 探讨 交换 机 与 交换 机 之 间 的 连接 故障 。 在 茶 些 驱动 绑 定 模式 下 ， 
即便 链 路 出 现 故 障 ， 交 换 机 间 的 连接 也 可 正常 使 用 ?3 。 当 然 当 故障 发 生 
时 也 可 能 造成 通信 阻 断 。 应 对 交换 机 之 间 的 连接 LS1-2 的 故障 时 ， 和 服 
务 吉 与 交换机 之 间 的 连接 的 情况 相同 ， 可 以 通过 连接 多 根 网 线 以 实现 郊 


人 人 I、o 


8 例如 在 balance-tlb 或 balance-alb 模式 的 情况 下 就 会 经 常 使 用 ， 在 active-backup 模式 下 ， 如 果 
0 active 物理 网 卡 与 所 用 的 交换 机 相同 ， 则 也 有 必要 建立 交换 机 与 交换 
沁 之 间 的 连接 。 


在 服务 器 与 交换 机 之 间 的 连接 尚 可 使 用 驱动 绑 定 的 方式 ， 但 交换 机 与 交 
换 机 之 间 的 连接 方面 ， 虽 然 早 先 可 以 使 用 交换 机 广 商 自 有 的 方式 ， 但 目 
前 还 是 使 用 标准 的 IEEE 802.3ad? 方式 比较 好 ， 这 常 被 称 为 “端口 聚 
合 ”(Port Trunking) 及 “ 链 路 聚合 ”(Link Aggregation) 。 


9 URL http://www.ieee802.0rg/3/ad/ 


3.3.5 ”增设 交换 机 


在 前 文 图 3.3.1 的 拓扑 结构 中 ， 人 全体 服务 器 可 使 用 的 交换 机 端口 数 实际 
仅 为 一 台 交 换 机 的 端口 量 ， 随 着 服务 器 台数 的 增加 ， 交 换 机 的 端口 数 会 
越 来 越 不 够 用 ， 因 此 需要 进行 扩展 。 关 于 扩展 的 方法 ， 既 可 以 选择 切换 
到 目前 已 有 的 端口 数 富裕 的 交换 机 ， 也 可 以 选择 增设 交换 机 。 切 换 的 情 
况 和 刚才 介绍 的 没什么 不 同 ， 但 若 要 增设 交换 机 ， 鉴 于 整个 拓扑 的 变 

更 ， 为 了 保持 元 余 性 就 需要 满足 更 多 的 条 件 。 对 图 3.3.1 的 拓扑 增设 交 
换 机 并 进行 级 联 连接 (Cascade Connection) 后 ， 所 形成 的 拓扑 结构 如 图 
3.3.2 所 示 。LS1-3 与 LS2-4 的 级 联 连接 与 站 S1-2 一 样 ， 使 用 了 链 路 聚合 
的 方式 实现 了 宛 余 。 


图 3.3.2 ”增设 交换 机 并 进行 级 联 连接 的 拓扑 结构 


应 用 图 3.3.2 的 拓扑 ， 在 驱动 绑 定 的 物理 网 卡 监控 方式 下 ， 需 要 使 用 
ARP 监控 。 在 MII 监控 下 ， 若 sw1 或 sw2 发 生 故 障 ， 则 会 导致 svr3 及 
svr4 的 通信 阻 断 。 以 下 具体 说 明 该 问题 的 状况 。 


知 Swl 发 生 故 障 ， 则 sw4 与 sw2 进行 连接 ，sw3 被 孤立 。 这 时 知 svr3 
与 Svrl 进行 通信 ， 因 为 没有 sw3 到 svrl 的 线路 ， 所 以 通信 无 法 实现 。 
藻 需 避免 该 问题 ， 在 swl 故障 时 ， 不 仅仅 是 swl 上 连接 的 svrl 及 svr2 
到 sw3 的 链 路 ，svr3 及 svr4 到 sw3 的 链 路 也 需要 被 判断 为 发 生 了 故 

障 。 为 此 ， 在 svr3 及 svr4 上 部 署 物 理 网 卡 故 障 监控 方式 ARP 监 
控 ， 并 将 ARP 的 监控 对 象 指 定 为 svrl 及 svr2 即 可 。 这 种 情况 下 ， 若 
sw1 发 生 故 障 ， 通 过 L3-3 及 L4-3 发 出 的 ARP 请 求 没 有 得 到 应 答 ， 即 可 
判断 出 该 链 路 发 生 了 故障 。 


实现 多 重 见 余 


在 图 3.3.2 中 ， 由 于 sw3 与 sw4 之 间 的 交换 机 没有 连接 ， 因 此 会 发 生 
sw1 及 sw2 故障 时 sw3 及 sw4 被 孤立 的 情况 。 为 了 避免 出 现 该 问题 ， 需 
要 像 图 3.3.3 那样 在 sw3 与 sw4 之 间 设 立 一 个 像 LS1-2 那样 的 交换 机 间 
的 连接 LS3-4， 以 设置 一 个 将 sw3 与 sw4 连接 起 来 的 迁 回 线路 ， 这 样 即 
便 不 使 用 驱动 绑 定 的 ARP 监控 ， 也 可 避免 通信 阻 断 的 问题 。 但 如 果 单 
纯 这 么 设置 迁 回 线路 ， 则 会 导致 其 他 问题 的 出 现 。 


请 看 图 3.3.3，sw1 到 sw4 之 间 相 互 连 接 实现 了 环 路 拓扑 。 但 若 在 以 太 
网 中 组 建 该 拓扑 结构 ， 将 会 导致 广播 风暴 〈Broadcast Storm) 0 的 出 
现 。 


0 广播 就 是 指 一 个 数据 帧 或 分 组 被 传输 到 本 地 网 段 ( 由 广播 域 定义 ) 上 的 每 个 节点 。 由 于 网 络 
拓扑 的 设计 和 连接 问题 ， 或 者 其 他 某 种 原因 ， 导 致 广播 在 网 段 内 大 量 复制 、 传 播 数 据 帧 ， 让 这 
上 撒 数 所 充斥 网 络 无 法 被 外 并 占用 大 量 网 络 带 宽 ， 致 使 网 络 性 能 下 降 ， 甚 至 彻底 瘫痪 。 
这 遍 


图 3.3.3 ”连接 sw3 与 sw4 的 迁 回 线路 的 设 定 示 例 


如 果 能 够 确保 正常 情况 下 sw3 及 sw4 的 连接 不 走 LS3-4， 只 在 swl 或 
LS1-3 故障 时 使 用 LS3-4， 束 能 够 在 确保 迁 回 线路 正常 的 前 提 不 发 生 广 
播 风 暴 。 为 了 实现 该 拓扑 结构 ， 可 使 用 STP (Spanning Tree 
Protocol) 。 下 节 将 讲解 STP 的 加 强 版 RSTP 的 使 用 方法 。 


3.3.6 RSTP 


RSTP (快速 生成 树 协 议 ，Rapid Spanning Tree Protocol) 并 是 数据 链 路 
层 的 协议 ， 被 用 于 协调 各 个 交换 机 ， 检 测 其 环 路 (Loop〉 拓扑 结构 ， 自 
动 屏蔽 不 需要 的 链 路 。RSTP 根据 优先 级 及 链 路 速度 等 设 定 来 决定 屏蔽 
哪些 交换 机 的 链 路 。 


1 快速 生成 树 协议 是 由 IEEE802.1d 定义 的 STP 发 展 而 来 的 。STP 在 环 路 拓扑 结构 发 生变 化 
时 ， 以 50 秒 左 右 的 时 间 收 敛 网 络 ， 而 改良 过 的 RSTP 则 可 在 数秒 间 收 敛 网 络 。RSTP 最 先 以 
IEEE 802.1w 为 标准 ， 现 在 的 IEEE 802.1D-2004 中 已 经 废止 了 STP， 开 始 使 用 RSTP。 


在 RSTP 中 ， 各 交换 机 通过 相互 交换 BPDU (Bridge Protocol Data 

Unit) 消息 帧 ， 交 换 优先 级 等 信息 并 监测 故障 。 告 该 BPDU 消息 帧 没有 
成 功 在 交换 机 间 进 行 传播 ， 则 可 判断 出 该 交换 机 发 生 了 故障 ， 即 可 切换 
到 备用 路 线 。 

下 面 将 简单 介绍 RSTP 的 行为 方式 。 

网 桥 的 优先 顺序 及 根 网 桥 

在 RSTP 所 运作 的 各 网 桥 (Bridge) 中， 通过 相互 交换 BPDU 消息 帧 
来 决定 网 桥 的 优先 顺序 。 在 链 路 上 所 有 的 网 桥 中 ,“ 根 网 酉 ”(Root 
Bridge) 拥有 最 高 的 优先 级 。 而 其 他 网 桥 的 优先 顺序 则 是 通过 将 从 其 他 
0 BPDU 消 恩 帧 中 所 记载 的 数值 与 自 喘 所 产生 的 数值 相 比 较 
来 决定 的 。 


1 网 桥 与 交换 集线器 (Switching Hub) 指 的 是 同一 个 东西 。 在 RSTP 的 标准 用 语 中 被 称 为 “网 
桥 ?， 因 此 本 书 中 也 这 么 称呼 。 


@ 根 网 桥 的 网 桥 ID 

人 @ 通 向 根 网 桥 的 路 径 开 销 (Path Cost) 

@ 一 般 网 桥 的 网 桥 ID 

四 发 送 BPDU 消息 帧 的 网 桥 的 端口 ID 

加 接收 BPDU 消息 帧 的 网 桥 的 端口 ID 

网 桥 ID 是 8 个 字 节 的 数值 ， 其 中 前 两 个 字 节 是 各 网 桥 上 用 户 所 设 定 的 
优先 级 数值 ， 后 六 个 字 节 是 网 桥 使 用 的 MAC 地 址 ， 网 桥 ID 较 小 的 一 
方 优先 级 较 高 。 

根 网 桥 的 路 径 开销 是 指 到 达 根 网 桥 所 经 由 的 链 路 时 间 ， 根 据 各 个 链 路 所 


设 定 的 链 路 开销 基数 来 评定 。 各 链 路 的 链 路 开销 由 连接 接续 时 间 决 定 。 
路 径 开 销 越 小 说 明 优先 级 越 高 。 


也 就 是 说 ， 根 网 桥 就 是 优先 级 数值 最 小 的 那个 。 
RSTP 中 端口 的 作用 


RSTP 上 所 有 的 网 桥 在 初始 化 过 程 中 ， 针 对 网 桥 上 的 各 个 端口 ，RSTP 
都 为 其 决定 了 特定 的 作用 。 该 作用 分 为 5 类 。 

。 根 端口 (Root Port) 

在 网 桥 的 各 个 端口 中 ， 被 接 入 优先 级 最 高 的 网 桥 的 端口 。 当 SRTP 


在 初始 化 时 进行 收敛 ， 由 于 所 有 网 桥 所 识别 的 根 网 桥 相 同 ， 所 以 根 
端口 就 是 到 达 根 网 桥 的 最 短路 径 


指定 端口 (Designated Port) 


人 
展 端口 


蔡 换 端口 (Alternate Port) 


除根 端口 外 ， 在 链 路 中 优先 级 较 高 的 端口 。 该 端口 可 屏蔽 除 BRDU 


备份 端口 (Backup Port) 


如 果 一 个 端口 ( 即 某 个 指定 的 端口 》 收 到 来 自 同 一 个 网 桥 的 BPDU 
消息 帧 ， 且 这 个 BPDU 的 优先 级 更 高 ， 那 么 这 个 端口 将 成 为 备份 端 
口 。 当 两 个 端口 被 一 个 点 到 点 链 路 的 环 路 连 在 一 起 时 ， 或 当 一 个 交 
换 机 存在 两 个 或 两 个 以 上 到 共享 局 域 网 段 的 连接 时 ， 一 个 备份 端口 
才能 存在 。 由 于 RSTP 所 设 定 的 网 桥 在 接收 消息 时 不 能 传送 BPDU 
消息 帧 ， 所 以 在 自身 传送 BPDU 时 ， 需 要 首先 对 没有 配置 RSTP 的 
0 0 0 
六 | /区 人 


。 禁用 端口 (Disabled Port) 


无 法 接收 BPDU 消 居 帧 的 端口 ， 通 第 在 链 路 末尾 将 端口 设 为 该 并口 


RSTP 的 行为 
在 此 将 概括 性 地 讲解 RSTP 的 行为 ,具体 请 参考 脚注 中 的 资料 3 。 


| 2 关于 RSTP 的 详情 ， 可 以 访问 下 面 的 链接 查看 下 EE 802.1D-2004 标准 。 
URL http://standards.ieee.org/getieee802/802.1.html 


在 RSTP (图 3.3.4) 基于 环 路 结构 的 网 络 拓 扑 中 ， 通 过 逻辑 性 地 屏蔽 消 
县 帧 来 解除 环 路 。RSTP 中 生成 了 “ 树 结构 ”"， 其 中 的 “ 树 根 ” 即 为 根 网 
桥 。 在 树 结 构 中 ， 通 向 优先 级 最 高 的 节点 的 链 路 (= 根 端口 ) 只 有 一 
六。 通常 只 会 接 入 到 根 端 口 ， 而 不 会 使 用 其 他 优先 级 较 高 的 网 桥 端 口 ， 
不 过 会 事先 对 该 端口 做 好 标记 以 供 无 法 使 用 根 端口 时 使 用 〈 蔡 换 端 
i 


BP Br 


RSTP 


FP AP 
ro | ~ 


平常 不 使 用 ， 仅 在 左边 的 
链 路 故障 时 使 用 
图 3.3.4 RSTP 的 行为 


如 果 网 桥 中 没有 答 换 端口 ， 那 么 在 无 法 使 用 根 端 口 的 情况 下 ， 将 会 与 低 
优先 级 的 网 桥 交 换 BPDU 消 恩 帧 。 这 古 因为 ， 无 法 使 用 根 端口 意味 着 根 
I 
高 的 缘故 。 


3.3.7 总结 


使 用 Linux 的 驱动 绑 定 ， 不 仅 实现 了 服务 器 与 交换 机 之 间 的 链 路 见 余 ， 
还 实现 了 交换 机 的 见 余 。 随 着 所 设置 的 服务 器 的 增多 而 不 得 不 增设 交换 
机 时 ， 知 能 恰当 地 规划 拓扑 结构 ， 通 过 使 用 驱动 绑 定 也 可 确保 元 余 性 。 
但 实施 该 方法 的 前 提 是 连接 到 网 络 的 所 有 设备 都 正确 应 用 驱动 绑 定 寅 


略 。 


部 团 RSTP 后 ， 即 便 不 使 用 驱动 绑 定 也 可 以 实现 交换 机 的 宛 余 ， 这 打破 
了 以 往 需 要 在 所 有 设备 上 使 用 驱动 绑 定 才能 实现 交换 机 元 余 的 限制 ， 争 
取 了 未 来 系统 扩展 的 自由 度 。 若 链 路 上 的 服务 器 增加 导致 需要 增设 交换 
机 的 话 ， 可 以 尝试 以 此 为 契机 将 RSTP 技术 应 用 到 这 些 设备 上 。 


3.4 引入 VLAN 一 一 使 网 络 更 加 灵活 

3.4.1 基于 服务 器 集群 的 高 灵活 性 网 络 

首先 请 考虑 何 为 基于 服务 器 集群 的 高 灵活 性 网 络 ， 具 体 来 讲 就 是 : 
。 容 易 增 加 新 的 服务 器 

。 当 服务 器 发 生 故 障 时 ， 能 立刻 转移 到 备用 机 

。 某 一 特定 功能 的 服务 器 可 作为 其 他 功能 的 服务 器 使 用 


只 要 满足 了 以 上 条 件 ， 残 可 以 说 是 作业 无 瓶 有 席 = 高 灵活 性 的 网 络 。 相 
反 ， 网 络 拓扑 结构 中 知 存 在 瓶 希 ， 无 法 方便 地 进行 上 述 作 业 ， 则 可 认为 
该 网 络 的 灵活 性 较 低 。 


人 硬件 层面 的 人 工 操作 虽然 容易 实现 ， 但 满足 以 上 条 件 的 软件 实现 束 入 微 
有 些 难度 了 。 例 如 只 要 服务 器 在 身边 ， 那 么 更 换 网 线 、 移 动 服务 器 都 不 
成 问题 。 但 提供 Web 服务 的 服务 器 托管 在 数据 中 心 的 情况 下 ， 就 不 能 
每 次 都 让 人 专程 跑 到 托管 现场 的 数据 中 心 进行 配置 。 为 外 在 物理 层面 更 
ee 


变更 网 络 的 拓扑 等 需要 进行 物理 层面 的 作业 时 ， 可 以 使 用 智能 交换 机 所 
具备 的 VLAN (Virtual LAN) 功能 ， 在 不 进行 物理 作业 的 情况 下 完成 
目标 。 在 本 节 中 ， 将 要 探讨 基于 服务 器 集群 组 建 高 灵活 性 网 络 的 方法 ， 
即使 用 VLAN 的 网 络 拓扑 结构 及 VLAN 服务 器 集群 的 使 用 方式 。 另 外 
还 将 专门 针对 负载 均衡 器 这 种 特殊 的 硬件 结构 讨论 VLAN 的 使 用 方 


2 


3.4.2 引入 VLAN 的 优点 


人 


。 使 用 一 台 交 换 机 即 可 实现 分 段 〈Segment) 管理 
~” 能 够 灵活 有 效 地 使 用 交换 机 


使 用 VLAN， 只 用 一 台 交 换 机 就 能 实现 分 段 管 理 。 相 比 不 使 用 
VLAN 的 情况 下 ， 可 更 加 灵活 有 效 地 使 用 交换 机 


只 需 合理 设 定 ， 就 能 控制 数据 帧 所 分 发 的 端口 


3 0 0 .0 

容 
通过 使 用 VLAN， 不 用 在 物理 层面 更 换 或 修复 LAN 网 线 ， 只 需 通 
过 合理 的 设 定 ， 就 能 控制 数据 帧 所 分 发 的 LAN 网 线 连接 的 端口 。 
因此 无 论 是 哪个 段 连接 的 服务 器 发 生 故 障 ， 只 需 将 LAN 线 缆 接 入 
备用 机 ， 就 能 很 容易 地 修复 该 故障 

下 面 我 们 就 来 详细 看 一 下 实际 的 运行 情况 。 

交换 机 的 有 效 使 用 

在 如 图 3.4.1 那样 的 普通 的 Web 系统 中 ， 存 在 WAN 段 及 内 网 段 两 部 

D4 

人 罗 。o 


内 网 段 WAN 段 


图 3.4.1 普通 的 Web 系统 


下 面 来 看 WAN 段 ， 即 便 除 交换 机 以 外 的 端口 在 拓扑 中 占用 了 相当 多 的 
资源 ， 交 换 机 也 最 多 只 能 使 用 四 个 端口 (上层 拓扑 两 个 ， 路 由 器 两 
个 ) 。 束 算 使 用 八 口交 换 机 ， 也 有 四 个 端口 是 被 浪费 掉 的 。 


服务 在 逐渐 扩展 时 肯定 需要 增加 Web 服务 器 的 数量 ， 若 内 网 段 的 交换 
机 没有 存在 空闲 端口 ， 即 便 增 加 一 两 台 Web 服务 占 ， 也 需要 相应 地 增 
设 交 换 机 。 但 此 时 WAN 段 的 端口 数 又 稍 显 充 榕 ， 知 能 在 内 网 段 的 交换 
机 上 使 用 这 些 空 闲 问 口 ， 则 就 没 必 要 增设 新 的 交换 机 了 。 


当然 ， 奢 直接 将 外 部 网 络 与 内 部 网 络 接 入 到 同一 台 交 换 机 上 ， 束 会 造成 
外 网 也 能 直接 访问 内 网 的 风险 。 因 此 不 能 只 退 求 弹性 化 ， 还 要 考虑 到 相 
应 的 安全 问题 。 


通过 在 以 上 拓扑 结构 中 使 用 VLAN， 即 可 在 确保 安全 的 同时 ， 灵 活 使 用 
各 个 交换 机 的 亲口 。 

故障 服务 器 的 恢复 机 制 … 有 灵活 使 用 一 合 备用 机 

在 此 假设 数据 中 心中 茶 人 台 服 务 占 发 生 了 故障 ， 让 我 们 来 考虑 如 何 恢复 这 


台 服 务 占 。 简 蛙 来 说 ， 如 果 数 据 中 心 已 经 准备 好 了 一 台 恢 复 用 的 备用 
机 ， 那 么 就 需 进 行 以 下 步 又 : 


。 将 故障 服务 器 的 设置 迁移 到 备用 机 
。 接 入 备用 机 以 取代 故障 服务 右 


为 了 缩短 恢复 故障 所 花费 的 时 间 ， 事 先 将 相关 服务 占 设 置 迁 移 到 备用 机 
上 或 许 是 个 不 错 的 方法 。 但 由 此 残 需 要 事先 将 Web 服务 器 、 数 据 库 服 
务 吉 等 每 个 生产 环境 中 的 系统 设置 都 迁移 到 备用 机 上 ， 当 工作 中 的 服务 
器 多 达 上 百 台 时 ， 将 需要 非常 庞大 的 系统 规模 ， 因 此 现实 中 该 方案 无 法 
实施 。 

没有 发 生 故 障 时 ， 疝 未 使 用 的 备用 机 产生 的 费用 开销 也 很 大 ， 因 此 需要 
尽 可 能 地 减少 备用 机 的 数量 。 在 包含 网 关 或 Linux 内 核 的 负载 均衡 器 

中 ， 可 以 部 赣 一 台 备 用 机 ， 使 服务 器 、 网 关 及 负载 均衡 需 都 能 将 其 作为 
备用 机 使 用 。 

使 用 VLAN， 仅 用 一 人 台 备 用 机 就 能 实现 恢复 

接 下 来 将 以 上 述 仅 用 一 台 备 用 机 来 保护 整个 系统 的 拓扑 结构 为 例 ， 探 讨 
0 
eg 


4 除 这 些 方 法 外 ， 还 有 其 他 可 供 选 择 的 方案 。 但 由 于 那些 方案 并 不 对 应 网 络 层 的 问题 ， 因 此 
在 本 节 中 不 做 探讨 。 


要 将 存放 数据 的 多 个 磁盘 安装 到 备用 机 上 ， 并 在 运行 时 进行 切 


浴 弄 


将 目标 服务 器 的 系统 结构 同步 ， 并 在 局 动 后 局 动 必要 的 服务 ， 通 
过 赋予 指定 的 IP 地 址 进行 切换 


网 络 启动 系统 拓扑 中 的 这 些 服务 器 ， 启 动 时 需要 对 服务 器 的 参数 
进行 合理 设置 上 


3 有关 网 络 启动 的 详情 请 参考 5.5 节 。 


以 下 将 探讨 上 述 @ 中 接 入 备用 机 的 问题 ， 具 体 如 何 实现 呢 ? 可 以 在 备 
用 机 上 安装 多 块 网 卡 ， 以 便 可 以 连接 到 任意 网 络 上 。 但 这 样 做 就 需要 交 
换 机 的 所 有 段 都 接 入 到 代替 机 上 ， 也 就 是 说 ， 从 物理 层面 进行 人 工 配置 


以 及 网 线 的 妥善 处 理 等 是 很 难 实现 的 。 


为 了 应 对 该 问题 ， 可 以 不 将 备用 机 设 为 特别 的 拓扑 结构 ， 无 论 备 用 机 
连接 哪个 交换 机 的 哪个 端口 ， 只 要 能 让 备用 机 接 入 就 可 以 了 。 知 能 实现 
人 
可 以 的 。 


有 关 网 线 的 连接 操作 ， 可 以 灵活 使 用 交换 机 及 系统 中 的 VLAN 功能 。 
通过 运用 VLAN， 束 可 以 缓解 必须 人 工 进行 物理 层面 的 操作 的 限制 ， 在 
非 故 障 时 增设 服务 需 也 变 得 更 加 容易 ， 使 系统 逐渐 晋升 为 大 规模 高 并 发 
的 拓扑 结构 成 为 了 可 能 。 


通过 实施 上 文中 摘 述 的 操作 ， 束 满足 了 本 市 开头 所 介绍 的 高 灵活 性 的 网 
络 需 求 。 下 文 将 结合 该 用 途 对 VLAN 进行 详细 讲解 。 


3.4.3 VLAN 的 基础 知识 


VLAN 并 非 是 物理 层面 的 结构 ， 而 是 通过 网 络 设备 及 服务 器 的 设 定 

来 “逻辑 性 ?地 分 割 拓扑 结构 的 扩 术 。 有 具体 来 说 ， 广 播 域 (Roadcast 
Domain) 的 分 割 从 理论 上 讲 是 完全 可 能 的 。 通 过 使 用 VLAN， 即 使 同 
一 合 交换 机 连接 多 个 段 的 终端 ， 根 据 设 定 的 不 同 ， 也 可 以 将 广播 域 进行 
逻辑 性 分 割 ， 从 而 只 将 数据 帧 转发 Forward) 到 适当 的 端口 。 


上 文中 已 经 针对 使 用 VLAN 还 辑 性 地 分 割 网 络 进行 了 说 明 ， 但 仍 需 考 
虑 需要 接 入 到 不 同 网 络 的 两 台 交 换 机 是 如 何 通 过 一 台 交 换 机 进行 管理 
的 。 例 如 像 图 3.4.2 的 @ 那样 ， 在 不 同 的 段 一 一 集群 1 及 集群 2 所 分 发 
的 系统 中 ， 通 常 需要 在 每 个 集群 中 都 准备 交换 机 。 但 若 恰 当地 使 用 
VLAN 进行 设 定 ， 即 可 实现 如 图 3.4.2 的 @ 那样 仅 用 一 台 交 换 机 ， 就 能 
够 分 割 出 多 个 集群 。 


全 两 台 交 换 机 的 两 个 集群 全 一 人 台 交 换 机 的 两 个 集群 { VLAN ) 


: 集群 1 ! 


图 3.4.2 网 络 物理 层面 的 分 割 及 逻辑 层面 的 分 割 (VLAN) 


在 不 使 用 VLAN 的 情况 下 ， 厦 一 个 交换 机 接 入 了 不 同 的 段 ， 该 交换 机 
也 可 针对 这 些 不 同 的 段 分 别 进行 通信 。 但 在 尚未 设 定 VLAN 的 交换 机 
中 ， 多 播 (Multicast) 、 广 播 帧 (Broadcast Frames) 或 地 址 不 详 的 未 知 
单 播 帧 Unknown Unicast Frame) 就 会 被 转发 到 毫 无 关系 的 段 上 。 


在 此 本 来 就 没有 关系 的 段 的 广播 帧 等 也 会 被 转发 到 各 个 端口 ， 从 而 造成 
坚 无 意义 的 带宽 浪费 。 根 据 情况 ， 在 本 来 束 无 法 进行 通信 的 段 上 必 送 通 
信人 信息， 会 带 来 盗 听 等 危险 ， 因 此 还 需要 同时 留意 安全 问题 才 行 。 


3.4.4” VLAN 的 种 类 
VLAN 的 实现 大 体 可 分 为 两 种 方法 。 


其 中 之 一 是 手动 将 集群 分 配 到 每 个 端口 上 ， 即 “静态 VLAN” (Static 
VLAN) 。 使 用 该 方法 时 ， 若 端口 所 连接 的 终端 集群 发 生 改 变 ， 则 需要 
手动 变更 路 由 器 上 的 相关 设置 。 


还 有 一 种 是 根据 所 连接 的 设备 等 ， 动 态 分 配 集群 的 “动态 
VLAN”(Dynamic VLAN) 。 使 用 该 方法 时 ， 即 便 所 连接 的 集群 终端 需 
0 
改 爸 。 


实现 VLAN 技术 的 方法 多 种 多 样 ， 根 据 使 用 目的 的 不 同 使 用 方法 也 会 
不 同 。 其 实 近 些 年 来 在 公司 内 部 的 LAN 上 ， 通 常会 根据 用 户 或 MAC 
地 址 等 信息 制定 相关 的 规则 ， 以 分 配合 适 的 VLAN 集群 来 确保 安全 。 

在 公司 内 部 LAN 中 ， 由 于 使 用 者 (= 职员 ) 的 调动 会 造成 拓扑 频繁 地 
发 生 改变 ， 而 通过 VLAN 的 动态 分 配 ， 可 以 让 使 用 者 获得 便利 的 同时 
也 满足 系统 安全 的 需要 ， 因 此 该 方法 被 广泛 使 用 。 


但 由 于 使 用 服务 占 集 群 不 用 频 壹 地 改变 拓扑 结构 ， 所 以 无 需 考虑 有 关 此 
0 但 知 频 每 地 发 生 结构 变化 ， 则 需要 重新 考量 整个 拓扑 
理性 


在 VLAN 中 ， 还 存在 上 述 一 些 厂商 为 自己 的 硬件 定制 的 特殊 种 类 
些 特 殊 种 类 上 文中 没有 介绍 到 。 ed ri a 
知识 为 准 ， 对 < 端口 VLAN” 及 < 标记 VLAN* 进 行 介 


端口 VLAN 


端口 VLAN (Port VLAN) 是 为 交换 机 的 各 个 端口 分 配 VLAN ID 的 方 
法 。 一 个 端口 对 应 一 个 VLAN ID， 在 集群 上 的 端口 同样 具备 相应 的 识 
别 ID。 在 图 3.4.3 中 ， 端 口 1、5、6 为 VLAN1 (VLAN ID 1 所 分 配 的 
集群 ) ， 端 口 2、3、4 为 VLAN2 (VLAN ID 2 所 分 配 的 集群 ) 。 在 该 
拓扑 结构 下 ， 同 一 VLAN 之 间 上 自然 能 实现 通信 ， 但 VLAN1-VLAN2 之 
间 则 无 法 实现 通信 。 
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图 3.4.3 ”端口 VLAN 


使 用 端口 VLAN 的 优点 是 ， 连 接 到 该 交换 机 的 客户 站 不 需要 特别 的 设 
置 ， 此 外 因为 是 针对 每 个 端口 的 VLAN 设置 ， 可 以 在 一 台 交 换 机 上 完 
成 ， 因 此 结构 较为 简单 。 但 使 用 端口 VLAN 也 存在 缺点 ， 比 如 无 法 在 
台 交 换 机 进行 集群 化 分 组 。 使 用 端口 VLAN， 可 以 在 多 台 交 换 机 间 
进行 集群 操作 ， 但 结果 会 导致 拓扑 结构 变 得 更 加 复杂 ， 交 换 机 间 的 流量 
也 会 被 这 些 坚 无 关系 端口 消耗 等 ， 因 此 不 建议 实施 。 在 端口 VLAN 的 
A 
J 


标记 VLAN 


标记 VLAN (Tagged VLAN) 是 指 ， 将 包含 VLAN ID 的 VLAN 识别 信 
县 (以 下 简称 VLAN 标签 ) 标记 到 以 太 网 帜 (Ethernet Frame) 中 ， 以 
作为 识别 各 VLAN 集群 的 方式 。 该 VLAN 标签 是 在 客户 端 或 交换 机 发 
出 以 太 网 帧 的 时 机 被 插入 的 。 在 VLAN 集群 的 管理 上 ， 与 以 端口 为 单 
位 进行 集群 操作 的 端口 VLAN 不 同 ， 其 是 以 所 传输 的 数据 帧 为 单位 进 
行 集群 化 分 组 的 。 因 此 就 没有 了 端口 VLAN 中 “一 个 端口 对 应 一 个 

VLAN ID” 的 限制 ， 使 得 单位 端口 也 可 针对 多 个 VLAN 进行 操作 。 


通过 该 方式 就 能 简单 地 构成 如 图 3.4.4 那样 的 横 跨 多 个 交换 机 的 VLAN 
集群 拓扑 结构 。 


以 太 网 帧 


mememeee -有 


ee 


图 3.4.4 标记 VLAN 标签 


至 此 好 像 一 直 在 说 标记 VLAN 相对 端口 VLAN 的 优势 ， 但 其 实 附 有 
VLAN 标签 的 以 太 网 帧 (被 标记 的 以 太 网 帧 〉 与 一 般 的 以 太 网 帧 相 比 ， 
报 文 首部 不 同 了 。 因 此 从 不 能 识别 VLAN 标签 的 终端 或 同样 不 能 识别 
VLAN 标签 的 网 络 设备 看 来 ， 这 是 不 正确 的 以 太 网 帧 。 也 就 是 说 ， 如 果 
将 附带 VLAN 标签 的 以 太 网 帧 转发 到 这 些 设备 ， 结 果 可 能 会 导致 将 本 
来 有 效 的 数据 帧 舍弃 了 ， 因 此 需要 确保 终端 或 网 络 设备 能 够 正确 识别 这 
些 附带 有 VLAN 标签 的 以 太 网 帧 。 


3.4.5 ”在 服务 器 集群 中 的 使 用 

接 下 来 以 3.4.2 节 中 介绍 的 服务 器 故障 的 应 对 为 前 提 ， 讨 论 使 用 各 
VLAN 拉 术 来 组 建 拓扑 结构 。 以 下 将 考虑 包含 负载 均衡 器 在 内 的 基于 
Linux 核心 的 服务 器 系统 拓扑 结构 。 


不 使 用 VLAN 的 拓扑 结构 


首先 来 考虑 不 使 用 VLAN 的 拓扑 结构 。 如 图 3.4.5 所 示 ， 在 实现 整个 元 
余 的 拓扑 结构 中 ， 需 要 面 对 下 面 儿 个 问题 : 


。 WAN 滑 的 交换 机 只 有 4 个 端口 可 用 (其 余 的 端口 被 浪费 ) 


。 准备 的 备用 机 没有 接 入 到 WAN 端的 交换 机 时 ， 不 能 作为 负载 均 
衡 硕 的 备用 机 使 用 


。 由 于 负载 均衡 名 的 存在 造成 硬件 结构 较为 特殊 (需要 4 块 网 卡 ) 


ta 
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( Active ) 
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LVS 
Standby 
图 3.4.5 ”整个 元 余 的 拓扑 结构 


为 了 改善 以 上 问题 ， 可 以 考虑 如 图 3.4.6 那样 将 所 有 连接 都 接 入 到 交换 
机 上 的 拓扑 结构 。 


EE 
用 机 | web VVeb LVS LVS 
EXO 


图 3.4.6 接 入 同一 台 交 换 机 的 全 元 余 拓扑 结构 


但 该 方式 存在 一 个 重大 的 问题 。 如 前 所 述 ， 多 播 /广播 帧 会 被 转发 到 所 
有 的 端口 上 。 也 就 是 说 ， 该 结构 会 将 Web 服务 器 段 所 发 生 的 多 播 / 广 播 
帧 传送 到 WAN 段 的 上 层 路 由 器 。 相 反 WAN 段 也 同样 会 接 到 该 数据 
帧 。 因 此 无 论 是 从 流量 上 来 说 还 是 从 安全 方面 来 说 部 是 不 理想 的 。 也 就 
是 说 如 果 不 解 决 这 个 问题 ， 图 3.4.5 的 拓扑 结构 就 依然 存在 缺陷 。 


使 用 端口 VLAN 的 拓扑 结构 
使 用 端口 VLAN 的 情况 下 会 是 什么 样 的 拓扑 结构 呢 ? 


请 看 图 3.4.7 的 使 用 端口 VLAN 的 结构 。 同 一 个 交换 机 内 有 两 个 VLAN 
集群 (VLAN ID1、VLAN ID2) ， 分 别 为 WAN 段 及 内 部 段 所 使 用 ， 
此 就 能 更 有 效 地 利用 交换 机 的 端口 了 。 


VLAN ID1 


VLAN ID2 


图 3.4.7 使 用 端口 VLAN 的 拓扑 结构 示例 1 


虽然 通过 改变 连接 备用 机 端口 的 VLAN 集群 ， 即 可 切换 到 WAN 段 ， 但 
由 于 负载 均衡 需 是 拥有 4 块 网 卡 的 特殊 硬件 结构 ， 因 此 考虑 到 负载 均衡 
名 可 能 会 及 生 故 障 ， 为 了 能 够 将 备用 机 当 作 负载 均衡 器 使 用 ， 需 要 在 备 
用 机 上 也 安装 4 块 网 卡 。 此 外 ， 还 必须 考虑 到 如 图 3.4.8 的 多 个 交换 机 
结构 中 交换 机 之 间 的 连接 问题 。 由 于 该 问题 的 存在 ， 无 法 单纯 使 用 
VLAN 构建 出 理想 的 拓扑 结构 ， 实 乃 遗 憾 。 
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图 3.4.8 ”使 用 端口 VLAN 的 拓扑 结构 示例 2 
使 用 VLAN 标签 的 拓扑 结构 


终于 轮 到 探讨 使 用 VLAN 标签 的 情况 了 。 


针对 使 用 端口 VLAN 的 拓扑 结构 所 存在 的 两 点 问题 来 考虑 改善 方案 ， 
可 得 到 如 图 3.4.9 的 结构 。 首 先 将 连接 到 负载 均衡 器 端口 的 VLAN ID1 
与 VLAN ID2 两 个 集群 进行 必要 的 配置 以 实现 可 操作 ， 另 外 准备 两 块 负 
载 均 衡器 的 网 卡 ， 这 方面 与 备用 机 及 其 他 服务 器 一 样 ， 像 这 样 组 建 的 
话 ， 问 题 束 得 到 了 解决 。 


在 本 结构 下 ， 集 群 中 所 接收 的 数据 帧 均 包 含 VLAN 标签 。 如 前 所 述 ， 

大 终端 无 法 识别 包含 VLAN 标签 的 以 太 网 帧 ， 那 么 该 数据 帧 就 很 有 可 
能 不 被 处 理 而 直接 被 忽略 。 但 实际 上 ， 终 端 连接 存在 限制 的 标记 

VAN 与 基本 上 可 连接 任何 终端 的 端口 VLAN 这 两 种 方式 是 可 以 混合 

使 用 的 。 也 就 是 说 并 不 需要 为 所 有 的 数据 帧 都 附带 VLAN 标签 ， 仅 在 

端口 处 理 较 为 困难 时 ， 也 就 是 必须 要 处 理 多 个 VLAN 的 情况 

下 ， 通 过 标记 VLAN 标签 进行 处 理 即 可 。 


qg| Pa66e1 
dl pe6pBe1 
qa| pPaBBel 
ql| paBBel 
ql ps65e1 
a| Ps66e1 
dl pPaBBe] 


顺 
ls 
- 
和 
| 
和 
| 


5 二 
LVS LVs 
一 -一举 和 一 


图 3.4.9 ”使 用 VLAN 标签 的 拓扑 结构 


在 这 种 情况 下 ， 在 肯 先 将 连接 到 上 层 路 由 器 的 端口 分 配 到 VLAN ID1 的 
端口 上 ， 剩 下 的 端口 即 VLAN ID2 也 就 只 能 设 定 为 端口 VLAN 了 。 田 
外 ， 将 多 个 VLAN 集群 的 数据 帧 交换 所 必 经 的 端口 (负载 均衡 器 的 端 
口 ) ， 设 定 为 “有 ”VLAN 标签 ， 即 将 负载 均衡 器 的 端口 VLAN ID1 设 定 


为 “有 ”VLAN 标签 ， 反之， 将 VLAN ID1 设 定 为 端口 VLAN， 并 将 
VLAN ID2 设 定 为 “有 ”VLAN 标签 也 是 可 以 的 。 另 外 ， 通 过 事先 设 
定 “ 当 VLAN 使 用 频繁 时 ， 不 使 用 标记 VLAN 标签 的 形式 ， 而 使 用 端口 
VLAN” 的 规则 ， 可 以 更 简单 地 避免 使 用 时 的 混乱 。 


通过 以 上 设 定 ， 能 够 处 理 VLAN 标签 的 终端 就 只 有 负载 均衡 器 了 ， 所 
以 在 此 需要 特别 对 负载 均衡 器 进行 说 明 。 因 为 Linux 支持 标记 VLAN， 
因此 不 需要 准备 特别 的 硬件 ， 只 需 进行 配置 就 可 以 了 。 在 Linux 上 使 用 
标记 VLAN 的 情况 下 ， 需 要 内 核 支 持 及 相应 的 配置 工具 。 要 确保 内 核 
支持 ， 只 需 在 编译 时 设 定 “CONFIG_VLAN_8621Q=y ”， 就 能 开启 该 功 
能 ;另外 配置 工具 方面 可 以 使 用 vconfig 命令 ， 使 用 该 命令 可 建立 
VLAN 接口 ， 当 然 该 工具 也 能 撤销 该 接口 的 建立 。 


在 本 拓扑 结构 中 的 负载 均衡 名 上 执行 vconfig ， 就 建立 了 VLAN ID1 
的 新 端口 eth0.1。 


lvs@1:~# aptitude install vlan 
lvs@1:~# vconfig add eth6 1 


该 拓扑 结构 对 不 使 用 VLAN 或 只 使 用 端口 VLAN 时 的 问题 做 出 了 相当 
程度 的 改善 。 


通过 使 用 标记 VLAN， 能 够 更 容易 地 搭建 出 类 似 的 物理 结构 ， 让 整个 系 
统 具备 相当 大 程度 的 伸缩 性 。 但 在 这 里 需要 注意 一 个 问题 ， 即 使 用 标记 
VLAN 的 情况 下 旬 辑 结构 往往 会 变 得 相对 复杂 。 而 且 与 使 用 端口 VLAN 
时 不 同 ， 可 能 还 需要 增加 对 服务 器 的 设 定 。 因 此 建议 将 端口 VLAN 作 
为 基本 的 结构 ， 只 在 必要 的 时 候 采 用 标记 VLAN 的 设 定 。 


3.4.6 ”即便 在 复杂 的 VLAN 结构 下 ， 也 需要 让 物理 层面 的 设 
备 结构 尽 可 能 简易 化 


上 文 的 一 系列 说 明 都 在 冰 述 在 服务 器 集群 中 使 用 VLAN 的 优点 。 


在 实际 引入 VLAN 时 最 重要 的 是 ， 无 论 使 用 哪 种 VLAN 方法 ， 都 应 该 
确保 拓扑 结构 相对 简易 。 在 耗费 精力 引入 VLAN 技术 后 ， 如 宁 因 结构 


Rn 
本 5 


而 且 虽 说 要 注重 逻辑 方面 的 结构 ， 但 也 不 能 忽视 物理 层面 的 结构 。 正 如 
在 存在 横路 多 个 交换 机 的 段 的 情况 下 ， 该 段 的 数据 需要 在 这 些 交 换 机 之 
间 传 送 ， 如 果 此 类 段 有 很 多 ， 就 可 能 存在 带宽 瓶 贷 (图 3.4.10) 。 为 了 
导 免 出 现 该 问题 ， 在 初期 规划 拓扑 结构 时 就 应 该 对 物理 络 构 组 态 及 逻辑 
0 
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市 宽 瓶 宽 的 可 能 性 


图 3.4.10 交换 机 之 间 出 现 
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第 4 章 性 能 优化 、 调 整 一 
Linux 单 个 主机 、Apache、MYySQL 


4.1 基于 Linux 单个 主机 的 负载 评估 
4.1.1 充分 发 挥 单个 主机 的 性 能 


提起 “负载 分 流 ”， 大 多 数 情况 下 人 们 都 会 联想 到 将 “负载 光 分 流 ? 到 多 从 
服务 器 进行 处 理 的 机 制 ， 前 三 章 所 叙述 的 也 是 这 种 情况 。 


但 首先 需要 明确 的 是 ， 将 原本 一 全 服务 器 就 能 负载 处 理 的 内 容 ， 分 流 到 
十 几 台 服务 器 ， 是 否 显得 有 些 本 末 倒 置 呢 ? 不 首先 想 办 法 充分 友 挥 单个 
服务 器 的 性 能 ， 而 跳 过 需要 的 优化 步骤 分 流 到 多 台 服 务 器 进行 负载 均 
衡 ， 这 样 做 意义 束 不 大 了 。 所 以 本 间 的 首要 问题 ， 就 是 针对 构成 该 网 络 
的 “单个 主机 ”做 重点 讲解 。 


清楚 何 为 性 能 、 何 为 负载 


为 了 充分 发 挥 单个 主机 的 性 能 ， 需 要 首先 了 解 “什么 是 性 能 ”>。 为 此 就 需 
要 掌握 服务 器 资源 的 使 用 状况 ， 因 此 接 下 来 将 首先 对 相应 的 监控 方式 进 
行 说 明 。 在 讲解 监控 方式 的 同时 ， 也 将 顺便 指出 Linux 操作 系统 中 相关 
对 象 的 运行 机 制 。 所 谓 知 其 负载 必 先 知 其 操作 系统 之 机 制 。 而 如 果 不 知 
道 操 作 系 统 的 运作 行为 ， 就 难以 诊断 出 系统 当前 的 状态 。 


参考 Linux 的 内 核 源 码 (Kernel Source) ， 就 能 具体 明白 “负载 * 的 定义 
了 。 昌 说 通过 监控 可 以 得 知 状态 信息 ， 但 不 了 解 监控 的 实质 售 义 就 无 法 
进行 考察 衡量 。 例 如 需要 在 多 任务 处 理 〈Multitasking) 的 运行 原理 中 明 
白 进程 状态 和 负载 之 间 的 关系 。Web 应 用 程序 的 负载 分 发 通常 都 是 “分 
流 或 减轻 破 盘 VO” 的 工作 。 不 同 操作 系统 中 IO 的 优化 策略 也 有 所 不 

同 。 操 作 系 统 为 了 减轻 IO 设立 了 缓存 等 机 制 ， 充 分 利用 系统 中 的 绥 存 
是 降低 系统 IO 的 诀 穿 。 


如 果 知 道 操 作 系统 的 运行 原理 和 人 负载 的 监控 方式 ， 原 本 只 能 治标 ， 现 在 
也 能 从 根本 上 解决 了 。 大 操作 系统 出 现 瓶 贷 ， 系 统 出 现 了 性 能 问题 ， 也 


可 以 按照 基本 货 略 查 明 其 原因 。 下 面 我 们 来 看 一 下 有 具体 方法 。 


针对 单一 主机 实施 优化 策略 意味 着 需要 确认 在 操作 系统 上 运行 的 中 间 
件 。 虽 说 只 要 操作 系统 以 理想 状态 运行 ， 应 用 软件 基本 上 都 能 发 挥 出 相 
应 性 能 。 但 世事 难 料 ， 服 务 器 不 能 保证 100% 不 出 问题 。 所 以 接 下 来 我 
们 也 将 了 解 一 下 Web 服务 器 和 数据 库 服务 器 的 优化 操作 ， 这 是 Web 程 
序 + 数 据 库 软件 运作 的 核心 。 


本 章 是 以 Linux 2.6 版 内 核 的 操作 系统 为 基础 来 介绍 的 。 但 由 于 近 几 年 
多 任务 处 理 的 操作 系统 也 基本 上 都 以 类 似 的 原理 运作 ， 因 此 即使 是 其 他 
版 本 的 内 核 或 操作 系统 ， 本 章 的 介绍 也 能 适用 。 

4.1.2 ” 别 腾 断 ， 请 监控 

发 挥 单个 主机 的 性 能 需要 正确 掌握 服务 器 资源 的 使 用 情况 。 也 就 是 说 ， 
需要 监控 服务 器 的 负载 究竟 到 了 什么 样 的 程度 ， 因 此 这 一 监控 工作 对 降 
低 单 个 服务 器 的 负载 也 是 非常 重要 的 。 

在 程序 员 之 间 有 一 句 很 有 名 的 格言 : 

别 腾 断 ， 请 监控 

负载 分 流 的 情况 也 不 例外 。 

因为 Apache 和 MySQL 等 应 用 软件 都 运行 于 操作 系统 上 ， 所 以 监控 负 
载 情况 就 意味 着 要 监控 操作 系统 。 若 对 操作 系统 都 不 了 解 ， 何 谈 负载 分 
流 ? 操作 系统 〈 此 处 为 Linux 内 核 ) 可 以 查看 负载 所 需 的 全 部 信息 。 
在 Linux 中 使 用 ps 、top 、sar 等 工具 。 这 些 工 具 都 是 Linux 命令 


行 
具 ， 可 以 据 此 检查 并 监控 Linux 内 核 内 部 的 各 种 统计 信息 。 例 如 ， 运 
行 top 命令 后 ， 终 端 如 图 4.1.1 所 示 。 


Ts 


top - 19:50:21 up 156 days, 4:38, 1 user, load average: 0.70, 60.66, 0.59 
Tasks: 164 total, 2 running，162 sleeping, 0 stopped, 0 zombie 
Cpu(s): 21.8%us, 0.6%sy, 08.6%ni, 77.2%id, 06.6%wa, 0.1%hi, 06.3%si, 6.0| 


Mem: 4628676Kk total, 2331866k used, 1696816k free, 158476k buffers 
Swap: 2848276k total, 9284k used, 2838992k free， 425664k cached 


PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 
18481 apache 17 © 394m 154m 4228 R 166 3.9 1:23.56 httpd 


19199 apache 16 6 396m 153m 4328 S 26 3.9 06:41.59 httpd 
18474 apache 15 © 366m 122m 4364 S 4 3.1 1:12.26 httpd 
18471 apache 15 © 371m 133m 4232 S 2 3.4 1:13.31 httpd 
19325 apache 15 6 343m 165m 4346 S 2 2.7 6:35.16 httpd 
1 root 15 6 16304 80 48 S 0 0.0 4:23.65 init 
2 root RT 0 0 0 8 S 0 6.6 2:46.25 migration/6 
3 root 34 19 0 0 8 5S 0 6.6 6:66.38 ksoftirqd/6 
< 以 下 省 略 > 


图 4.1.1 top 的 输出 示例 


top 命令 是 表示 系统 瞬间 状况 的 快照 信息 。 该 工具 所 输出 的 信息 会 随 着 
时 间 流 逝 刷 新 内 容 ， 因 此 非常 便于 观察 系统 负载 的 趋势 。 

例如 ， 使 用 top 工具 能 够 得 阅 系 统 的 CPU 使 用 率 和 内 存 的 使 用 状况 等 
数值 。 通 过 从 这 些 数值 判断 ， 虽 然 能 清楚 地 确认 系统 的 负载 状况 ， 但 是 
这 些 数值 涉及 的 项 目 及 类 型 很 多 ， 究 竟 如 何 了 解 这 些 数值 的 意义 呢 ? 为 


此 就 需要 清楚 “什么 是 负载 ”。 


在 详细 介绍 “什么 古 负 和 载 "之 前 ， 我 们 先 来 看 一 下 如 何 确认 生产 环境 中 发 
生 的 瓶颈 。 


4.1.3 ”确认 瓶颈 的 基本 流程 
要 想 清 楚 了 解 生 产 环境 中 所 发 生 的 瓶颈 的 情况 ， 请 注意 以 下 几 点 : 
。 观察 load average 〈 平 均 负 载 ) 
。 观察 CPU、LO 是 否 存 在 瓶颈 
接 下 来 将 详细 讲解 各 个 基本 流程 。 
观察 load average 
首先 ， 作 为 重要 的 负载 评估 指标 ， 需 要 通过 top 和 uptime 等 命令 查看 


load average。load average 可 以 衡量 整个 系统 的 负载 情况 。 虽 说 仅 通 过 
load average 还 不 能 判断 出 系统 出 现 瓶 贷 的 原因 在 哪里 ， 但 可 从 load 


average 着 手 进 行 系统 瓶 贷 的 调查 。 


有 时 在 load average 较 低 时 ， 系 统 的 吞吐 量 有 可 能 还 是 达 不 到 要 求 。 此 
时 就 需要 查看 软件 的 配置 是 否 不 合理 ， 网 络 、 远 程 主机 方面 是 否 存在 问 


观察 CPU、LIO 是 否 存在 瓶颈 

当 load average 较 高 时 ， 需 要 确认 CPU 和 IO 哪个 存在 问题 。 通 过 使 
用 sar 或 vmstat 等 工具 ， 可 以 确认 一 段 时 间 内 的 CPU 使 用 率 和 IO 等 
待 的 情况 。 确 认 后 即 可 进入 下 一 个 阶段 。 

当 CPU 负载 较 高 时 

CPU 负载 较 高 时 ， 可 以 按照 下 面 的 流程 来 排查 问题 所 在 : 


。 通过 top 和 sar 等 工具 来 判断 是 用 户 程序 (Web 应 用 程序 ) 的 原 
因 ， 还 是 系统 程序 〈 操 作 系 统 ) 的 原因 


一 边 通过 ps 命令 来 查看 进程 状态 以 及 CPU 使 用 时 间 等 数据 ， 一 
边 锁 定 出 现 问题 的 进程 

如 果 要 进一步 了 解 所 锁定 的 进程 的 具体 行为 ， 可 以 使 用 strace 命 
令 进 行 跟踪 〈Trace) ， 也 可 以 使 用 oprofile 工具 在 计数 器 中 断 处 
理 入 口 处 建立 监测 点 ， 以 缩小 监控 瓶颈 的 范 

造成 CPU 负载 过 重 的 原因 通常 是 : 


。 位 盘 及 内 存 占用 尚未 超标 的 情况 下 〈 即 IO 不 存在 瓶 贷 )， 系 统 
的 load average 指标 依旧 很 高 


。 程序 的 逻辑 部 分 负载 超过 CPU 的 承受 能 力 且 不 受 控制 
如 果 是 前 者 上 且 系 统 吞 吐 性 能 也 出 现 了 问题 ， 可 以 尝试 通过 增设 服务 器 、 
改善 程序 逻辑 和 算法 来 解决 问题 。 后 者 的 情况 下 要 注意 程序 没有 预料 到 
的 流程 ， 以 避免 出 现 程 序 失控 的 状况 。 


当 VO 负载 较 高 时 


IO 负载 较 高 基本 上 有 两 种 情况 : 一 种 是 来 自 程序 本 身 的 磁盘 读 写 较为 
频繁 ， 造 成 该 程序 输入 输出 负载 比较 高 ， 男 一 种 是 因 使 用 了 Linux 
SWAP 交换 区 而 造成 磁盘 的 频繁 访问 。 通 过 使 用 sar 及 vmstat 命令 确 
认 SWAP 交换 区 的 状况 ， 即 可 分 辨 出 到 底 是 哪 一 种 情况 。 


如 果 确 认 后 发 现 发 生 了 频繁 访问 SWAP 交换 区 的 情况 ， 可 通过 以 下 几 
个 步骤 来 得 出 问题 所 在 : 


。 通过 ps 命令 确认 是 否 有 特定 进程 消耗 了 大 量 内 存 


。 由 于 程序 不 受 控制 而 造成 内 存 占用 过 大 时 ， 可 以 修改 相应 的 程序 
逻辑 来 解决 问题 


。 系统 内 存 不 足 时 增加 内 存 。 无 法 增加 内 存 的 情况 下 需要 考虑 进行 
负载 分 流 
如 果 没 有 频繁 访问 SWAP 交换 区 ， 且 磁盘 上 依然 频 楷 发 生 输 入 输出 ， 
该 情况 下 可 以 认为 是 缓存 所 需 的 内 存 不 足 。 可 以 根据 服务 器 装载 的 磁盘 
容量 以 及 可 以 扩充 的 内 存 容量 ， 分 以 下 几 种 情况 来 考虑 : 
。 通过 扩展 内 存 缓存 以 实现 扩展 缓存 容量 时 ， 优 先 扩充 内 存 容量 


。 无 法 通过 扩充 内 存 容量 来 解决 问题 时 ， 需 要 考虑 数据 分 流 和 增设 
缓存 服务 器 等 方案 。 当 然 也 可 以 考虑 改善 程序 以 减轻 VO 频率 


以 上 是 寻找 友 生 负载 的 原因 的 基本 方法 。 在 此 基础 上 ， 接 下 来 就 让 我 们 
一 起 来 了 解 下 “为 什么 发 生 瓶 颈 后 ， 逐 步 缩 小 造成 系统 瓶颈 问题 的 原因 
的 范围 是 完全 可 以 实现 的 ”。 

4.1.4 何 为 负载 

究竟 负载 指 的 是 什么 呢 ? 针对 负载 ， 下 文 将 从 以 下 几 点 着 手 介 绍 。 
两 种 负载 

一 般 来 说 ， 负 载 可 以 分 为 两 大 部 分 : 


。 CPU 负载 


。1O 负载 


例如 ， 假 设 有 一 个 进行 大 规模 科学 计算 的 程序 ， 虽 然 该 程序 不 会 频繁 地 
从 磁盘 输入 输出 ， 但 是 处 理 完 成 需要 相当 长 的 时 间 。 因 为 该 程序 主要 被 
用 来 做 计算 、 逻 辑 判断 等 处 理 ， 所 以 程序 的 处 理 速 度 主 要 依赖 于 CPU 
的 计算 速度 。 此 类 CPU 负载 的 程序 称 为 “计算 密集 型 程序 ”(CPU 
Bound) 。 


还 有 另 一 类 程序 ， 主 要 从 磁盘 保存 的 大 量 数据 中 搜索 找 出 任意 文件 。 这 
个 搜索 程序 的 处 理 速 度 并 不 依赖 于 CPU， 而 是 依赖 于 磁盘 的 读 取 速度 ， 
也 就 是 输入 输出 (Input/Output，1/O) 。 人 磁盘 越 快 ， 检 索 花 费 的 时 间 就 
越 短 。 此 类 LO 负载 的 程序 ， 称 为 “LO 密集 型 程序 ”(1O bound) 。 


一 般 来 说 ，AP 服务 器 所 做 的 处 理 是 将 从 数据 库 服 务 占 获得 的 数据 进行 
加 工 后 交 给 客户 端 。 在 此 过 程 中 ， 该 AP 服务 器 应 该 不 会 发 生 大 规模 的 
W/O， 因此 通常 可 认为 AP 服务 器 是 计算 密集 型 的 服务 句 。 


男 一 方面 ， 数 据 库 服务 器 是 构成 Web 应 用 程序 的 另 一 系统 要 素 ， 其 主 
要 工作 是 从 磁盘 检索 数据 ， 特 别 是 当 数 据 规 模 较 大 时 ， 比 起 CPU 的 计 
算 时 间 ，IO 速度 更 能 影响 数据 库 服务 器 的 快慢 ， 因 此 数据 库 服 务 需 属 
于 IO 密集 型 服务 器 。 妇 外 ， 即 使 是 相同 的 服务 器 ， 根 据 造 成 负载 的 原 
因 不 同 ， 其 特性 也 会 发 生 很 大 变化 。 


多 任务 操作 系统 与 负载 


Windows 和 Linux 等 近 几 年 的 多 任务 操作 系统 能 够 同时 处 理 几 个 不 同名 
称 的 任务 。 但 是 在 同时 运行 多 个 任务 的 过 程 中 ，CPU 和 磁盘 这 些 有 限 的 
硬件 资源 就 需要 被 这 些 任 务 程序 共 孚 。 即 在 很 短 的 时 间 间 隅 内 ， 需 要 一 
边 在 这 些 任务 之 间 进 行 切 换 一 边 进行 处 理 ， 这 就 是 多 任务 (图 
2) 


图 4.1.2 多 任务 


运行 中 的 任务 较 少 的 情况 下 ， 系 统 并 不 等 待 此 类 切换 动作 的 发 生 。 但 是 
当 任务 增加 时 ， 例 如 任务 A 正在 CPU 上 执行 计算 ， 接 下 来 如 果 任 务 B 
和 C 也 想 进 行 计算 ， 那 么 就 需要 等 得 CPU 空间。 也 就 是 说 ， 即 使 想 运 


行 处 理 某 任务 ， 也 要 等 到 轮 到 它 时 才能 运行 ， 此 类 等 待 状态 就 表现 为 程 
序 运行 延迟 。 


top 的 输出 中 包含 ”load average” 的 数字 。 


load average: 6.76，6.66，6.59 


load average 从 左边 起 依次 是 在 过 去 1 分钟 、5 分 钟 、15 分 钟 内 ， 单 位 
时 间 的 等 竺 任务 数 ， 也 就 是 表示 平均 有 多 少 任务 正 处 于 等 待 状态 。 在 
load average 较 高 的 情况 下 ， 就 说 明 等 竺 运行 的 任务 较 多 ， 因 此 轮 到 该 
任务 运行 的 等 竺 时间 就 会 出 现 较 大 延迟 ， 即 反映 了 此 时 负载 较 高 。 


但 是 ，load average 的 数字 只 是 表示 等 竺 的 任务 数 ， 仅 根据 load average 
并 不 能 判断 具体 是 CPU 负载 高 还 是 IO 负载 高 。 因 此 最 终 要 判断 服务 
器 资源 具体 哪里 遭遇 了 瓶颈 ， 还 需要 再 做 一 些 细致 的 调查 。 


具体 看 哪个 数值 能 判断 系统 的 瓶颈 呢 ? 各 个 数值 分 别 反 应 了 系统 
哪里 的 状态 呢 


load average 表示 的 “等 待 任务 ?具体 等 竺 的 是 什么 呢 


即使 找到 了 瓶颈 ， 也 需要 深入 了 解 具 体 是 哪个 进程 负载 的 原因 所 
导致 的 瓶颈 


搞 清 负载 的 本 来 面目 = 知晓 内 核 的 行为 


所 谓 “ 负 载 ?， 其 实 也 只 不 过 是 用 一 个 词 表 示 了 因 多 任务 的 服务 需 资 源 争 
奔 而 产生 的 等 竺 时间。 为 了 搞 清 负载 的 本 来 面目 ， 需 要 明白 系统 在 什么 
情况 下 会 进行 “等 竺 任务 ”的 动作 ， 也 就 是 需要 明日 Linux 内 核 的 运行 。 


Linux 内 核 中 的 “进程 调度 器 ”(Process Scheduler) 是 支配 任务 等 待 的 程 
序 。 在 多 任务 的 支配 中 ， 进 程 调 上 度 器 人 负 员 决定 任务 运行 的 优先 级 ， 以 及 
让 任务 等 待 或 使 之 重新 开始 等 内 核 中 的 核心 工作 。 通 过 进程 调度 器 查看 


进程 的 概要 ， 从 而 就 可 以 掌握 该 进程 所 对 应 的 负载 情况 
进程 调度 和 进程 状态 


“进程 ”(Process) 是 程序 在 系统 中 运行 的 基本 单位 。 进 程 与 表示 内 核 中 
的 运行 的 单位 “任务 ”(Task) 在 狭义 上 虽然 有 所 区 别 ， 但 这 里 把 两 者 理 
解 为 一 个 意思 也 不 妨碍 对 下 文 的 理解 。 


例如 ， 在 运行 1s 命令 的 时 候 ，1s 的 三 进 制 文件 的 机 器 语言 命令 在 内 存 
中 被 展开 ， 府 接着 CPU 在 内 存 中 访问 (Fetch) 命令 并 执行 。 为 了 完成 

该 命令 的 执行 ， 需 要 了 解 1s 命令 ee 运行 中 
的 合 命令 位 置 〈 程 序 计 数 器 ， Progran Counter) 、 命令 打开 的 文件 一 
览 等 各 种 信息 。 通 过 将 这 些 信息 归纳 整理 ， 汇总 出 正在 运行 的 程序 可 
以 更 方便 地 弄 清楚 状况 。 因此 ， 此 处 所 指 的 进程 ， 即 汇总 了 “程序 命 
令 ” 和 “运行 时 所 需 信 息 ” 的 对 象 。 


在 Linux 内 核 中 ， 每 一 个 进程 都 存在 一 个 名 为 “进程 描述 符 ” (ioess 
Descriptor) 的 管 理 表 。 该 进程 描述 符 中 保存 有 各 种 执行 时 的 信息 


1 进程 描述 符 在 Linux 内 核 编 码 中 采用 task_struct 结构 。 a 
include/linux/sched.h 中 有 其 定义 ， 有 兴趣 的 读者 可 以 研究 


在 Linux 内 核 中 ， 各 进程 描述 符 会 被 调整 为 按照 优先 级 降序 排列 ， 以 按 
合理 的 顺序 运行 进程 (任务 )。 这 个 调整 即 为 “进程 调度 右 ” 的 工作 (图 
4.1.3) 。 


图 4.1.3 ”进程 调度 器 

调度 器 划分 并 管理 进程 的 状态 。 例 如 ， 
。 等 待 分 配 CPU 资源 的 状态 
。 等 竺 磁盘 输入 输出 完毕 的 状态 


进程 描述 符 中 有 保存 此 状态 的 区 域 (task_struct 结构 体 中 的 state 成 
员 ) 。 各 个 状态 的 区 别 如 表 4.1.1 所 示 。 


表 4.1.1 进程 描述 符 的 状态 的 区 别 


进程 调度 器 


可 中 断 的 等 待 状态 。 主 要 为 恢复 时 间 无 法 预测 的 长 时 
间 等 待 状态 。 例 如 系统 睡眠 或 来 自 于 用 户 的 输入 的 等 


不 可 中 断 的 等 待 状态 。 主 要 为 短 时 间 恢 复 时 的 等 待 状 
TASK_UNINTERRUPTIBLE | 态 。 例 如 磁盘 输入 输出 的 等 待 


TS 


啊 应 暂停 信号 而 运行 中 断 的 状态 。 直 到 恢复 
(Resume) 前 都 不 会 被 调度 


TASK_SIOPPED 


僵 死 状态 。 虽 然 子 进程 已 经 终止 〈exit) ， 但 父 进程 
TASK_ZOMBIE (进程 控制 块 ) 尚未 执行 wait0， 因 此 该 进程 的 资源 没 
有 被 系统 释放 


调度 器 在 管理 各 个 进程 的 运行 状态 的 同时 ， 还 会 根据 情况 变更 状态 以 控 
制 任 务 的 执行 顺序 。 

进程 状态 变迁 的 具体 例子 
下 面 来 看 个 具体 的 例子 。 该 例子 中 有 三 个 进程 外 、 妨 、 同时 运行 。 
首先 ， 每 个 进程 在 生成 后 都 是 可 运行 状态 ， 也 就 是 从 TASK _ RUNNING 
的 状态 开始 。 这 里 请 注意 TASK _. RUNNING 是 “可 运行 的 等 待 状态 ”， 而 
不 是 “现在 正在 运行 ”的 状态 


。 进程 外 : TASK_RUNNING 


。 进程 B@: TASK_RUNNING 
。 进程 此 : TASK_RUNNING 


TASK_RUNNING 的 三 个 进程 立即 成 为 调度 对 象 。 此 时 ， 假 设 调度 器 给 
进程 外 : TASK_RUNNING 分 配 了 CPU 的 运行 权限 。 


。 进程 外 : TASK_RUNNING 正在 运行 
。 进程 四 : TASK_RUNNING 
。 进程 中 : TASK_RUNNING 


由 于 在 Linux 内 核 中 无 法 区 别 正在 运行 的 状态 和 可 运行 的 等 待 状态 。 为 
了 直观 起 见 ， 这 里 将 该 状态 称 为 “TASK_RUNNING 正在 运 区 行 9。 


因为 分 配 了 CPU， 所 以 进程 外 开始 处 理 。 进 程 岛 和 则 在 此 等 待 进程 


回迁 出 CPU。 


假设 外 进行 若干 计算 之 后 ， 需 要 从 磁盘 读 取 数据 。 那 么 在 久 发 出 读 取 磁 
盘 数 据 的 请 求 之 后 ， 到 请 求 的 数据 到 达 之 前 ， 将 不 进行 任何 工作 。 此 状 
况 称 为 “ 因 等 待 VO 操作 结束 而 被 阻塞 ”。 在 IO 完成 处 理 前 ， 外 一 直 
处 于 等 待 状态 (TASK_UNINTERRUPTIBLE) ， 并 不 使 用 CPU。 于 是 

en 和 的 优先 级 计算 结果 ， 将 CPU 运行 权限 交 予 优先 级 

区 高 的 一 方 。 


这 里 假设 妨 的 优先 级 高 于 @ 。 


。 进程 : TASK_UNINTERRUPTIBLE 


。 进程 鸟 : TASK_RUNNING 正在 运行 


。 进程 吕 : TASK_RUNNING 


加 刚 开 始 运行 ， 就 需要 等 待 用 户 的 键盘 输入 。 于 是 @ 进入 等 竺 用 户 输入 
状态 ， 同 样 被 阻塞 。 结 果 就 变 成 人 和 @ 都 要 等 待 输出 ， 运 行 口 。 这 时 外 
和 中 都 是 等 待 状态 ， 但 是 等 待 磁盘 输入 输出 和 等 待 键盘 输入 为 不 同 的 状 
态 。 等 待 键盘 输入 是 无 期 限 长 时 间 的 事件 等 待 
CTASK_INTERRUPTIBLE) ， 而 读 盘 则 是 必须 短 时 间 内 完成 的 事件 等 
待 ， 这 是 两 种 状态 有 所 区 别 的 原因 。 


各 进程 的 状态 如 下 所 示 。 


。 进程 @®@ : TASK_UNINTERRUPTIBLE (等 待 磁盘 输入 输出 /不 可 
中 断 ) 


。 进程 龟 : TASK_INTERRUPTIBLE (等 待 键 盘 输入 /可 中 断 ) 

。 进程 品 : TASK_RUNNING 正在 运行 
这 次 假设 在 进程 @ 运行 的 过 程 中 ， 进 程 包 请 求 的 数据 从 磁盘 到 达 了 缓冲 
装置 。 紧 接着 硬盘 对 内 核发 出 中 断 信号 ， 内 核 知道 磁盘 读 取 完 成 ， 将 进 
程 包 恢复 为 可 运行 状态 。 


。 进程 外 : TASK_RUNNING 


。 进程 8: TASK_INTERRUPTIBLE 

。 进程 中: TASK_RUNNING 正在 运行 
此 后 进程 @ 也 会 变 为 菜 种 等 待 状态 。 例 如 : 

。 CPU 的 占用 时 间 超 出 了 上 限 

。 任务 结 

。 进入 IO 等 待 


一 旦 满足 这 些 条 件 ， 调 度 器 就 可 以 完成 从 进程 @ 到 进程 @ 的 进程 状态 的 
切换 。 
进程 状态 迁移 汇总 


以 上 进程 的 状态 变迁 如 图 4.1.4 所 示 。 像 这 样 进程 被 定义 为 几 个 状态 以 
作 区 分 ， 进 程 在 各 状态 间 迁 移 的 同时 会 进行 必要 的 计算 或 者 改变 响应 
IO 的 行为 。 进 程 的 状态 变迁 对 深入 理解 系统 负载 有 很 大 的 意义 。 


正在 运行 
TASK_RUNNING 


启动 /重启 ff 和 


a 等 待 事件 

成 二 /二 AA 二 央 放 TASK INTERRUPTIBLE 
运 休 村 付 2 

i TASK_RUNNING 或 者 


TASK_UNINTERRUPTIBLE 


图 4.1.4 进程 的 状态 迁移 
换算 到 load average 的 等 待 状态 


进程 A~C 在 发 生 状态 迁移 的 过 程 中 ， 出 现 了 四 种 状态 : 


。 TASK_RUNNING 正在 运行 
。 TASK_RUNNING 
。 TASK_INTERRUPTIBLE 
。 TASK_UNINTERRUPTIBLE 
load average 是 表示 “等 待 进 程 的 平均 数 ” 的 数字 。 四 个 状态 中 ， 
除 “TASK_RUNNING 正在 运行 * 以 外 ， 其 余 三 个 都 是 等 候 状 态 。 而 这 三 
个 进程 的 等 待 状态 都 会 被 加 权 换 算 为 相应 的 load average 吗 ? 
事实 证 明 ， 只 有 TASK_RUNNING 和 TASK_UNINTERRUPTIBLE 会 


被 换算 为 load average，TASK_INTERRUPTIBLE 则 不 能 被 换算 。 也 就 
是 说 : 


。 即 便 需 要 即刻 使 用 CPU， 也 还 需 等 待 其 他 进程 用 完 CPU 
。 即 便 需 要 继续 处 理 ， 也 必须 等 待 磁盘 输入 输出 完成 才能 进行 


以 上 两 种 情况 的 进程 才 会 表现 为 load average 的 数值 。 


两 种 状态 的 共同 点 是 “虽然 需要 即刻 运行 处 理 ， 但 是 无 论 如 何 都 必须 等 
候 ”。 另 一 方面 ， 即 使 同样 是 在 等 待 ， 键 盘 输入 等 竺 或 睡眠 等 待 与 程序 
明示 的 等 竺 也 不 相同 ， 它 们 不 包含 在 load average 换算 的 范围 中 。 另 
外 ， 来 自 远程 主机 的 数据 ， 例 如 来 信 等 待 ， 由 于 无 从 得 知 对 方 何 时 会 发 
来 数据 ， 因 此 也 不 能 换算 为 load average。 


load average 是 表示 系统 负载 的 指标 ， 可 见 以 上 两 点 的 等 竺 状态 与 系统 
负载 是 挂钩 的 。 


load average 表述 的 负载 意义 


硬件 会 以 特定 的 周期 间隔 同 CPU 发 出 中 断 信 号 。 因 为 是 按 特定 的 间隔 
发 出 的 信号 ， 因 此 被 称 作 * 计 时 器 中 断 ”(Timer Interrupt) 。 例 如 在 
CentOS 5 中 ， 中 断 间 隔 被 设置 为 4ms (毫秒 ) 。 每 次 中 断 时 ，CPU 都 
将 推进 时 间 ， 计 算 该 时 间 间 隔 内 运行 的 进程 所 占用 的 CPU 情况 等 ， 进 
行 与 时 间 有 关 的 处 理 。 由 此 在 每 个 计时 器 中 断 的 间隔 中 ， 计 算出 该 时 间 
间隔 内 load average 的 数值 。 


在 内 核 的 计时 器 中 断 中 ， 可 以 预先 算出 处 于 可 运行 状态 的 任务 和 处 于 
IO 等 待 状态 的 任务 的 数量 。 通 过 用 该 数字 除 以 单位 时 间 ， 就 可 以 算出 
相应 的 load average。 


米 米 米 


到 目前 为 止 ，“load average 显示 的 负载 的 本 来 面目 ” 吏 显 而 易 见 了 。 总 
之 ，load average 所 摘 述 的 负载 怠 是 : 


需要 运行 处 理 但 又 必须 等 待 队 列 前 的 进程 处 理 完成 的 进程 个 数 。 
具体 来 说 就 是 : 


。 等 待 被 授予 CPU 运行 权限 的 进程 


。 等 待 磁盘 TVO 完成 的 进程 


这 个 确实 与 直观 感 党 相符 。 在 很 占用 CPU 资源 的 处 理 中 ， 例 如 在 进行 
动画 编码 等 的 过 程 中 ， 虽 然 想 进行 其 他 相同 类 型 的 处 理 ， 结 果 系 统 反应 
却 变 得 很 慢 ， 还 有 从 磁盘 读 取 大 量 数据 时 ， 系 统 的 反应 同样 也 会 变 得 很 
慢 。 i 无 论 有 多 少 等 竺 键盘 输入 操作 的 进程 ， 也 不 会 让 系统 
啊 应 变 得 很 慢 。 


专栏 
用 工具 观察 进程 状态 .……. ps 


虽然 TASK_RUNNING 和 TASK _INTERRUPTIBLE 等 在 内 核 中 的 处 
理 状 态 存 在 区 别 ， 但 是 可 以 从 用 户 进程 查看 此 状态 。 有 具体 可 以 通过 
ps 和 top 等 命令 将 该 信息 以 一 定 的 格式 显示 出 来 。 以 下 是 ps 命令 

的 输出 。 


% ps auxw | egrep (STAT|httpd) 

USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND 
root 10861 8.6 1.7 295256 69026 ? Ss Feb67 

apache 18711 3.1 366744 125176 ? 00:13 

3.8 396636 154696 ? 60:18 

3.9 4606188 158492 ? 60:22 


7.2 
apache 18827 8.1 
apache 18898 9.0 


请 注意 STAT 列 。 根 据 man ps 的 结果 ,“S?" 是 “Interruptible Sleep”， 相 
当 于 TASK_INTERRUPTIBLE。“R” 是 “Running or 

Runnable (onrunqueue) ”X*1 ,相当 于 TASK_RUNNING 关 2 。 可 见 ps 
的 STAT 项 和 内 核 的 进程 状态 是 对 应 的 关系 。 


※1 runqueue 即 运行 队列 ， 处 于 可 运行 状态 的 进程 在 内 核 中 排列 的 队列 。 


※2 “Ss” 的 s 表 示 控 制 进程 (Session Leader) 。 
e。 R(Run):TASK_RUNNING 
。S(Sleep):TASK_INTERRUPTIBLE 
。 D(Disk Sleep):IASK_UNINTERRUPTIBLE 
e Z(Zombie):TASK ZOMBIE 
其 他 项 目 所 表示 的 意义 请 参照 ps 的 参考 手册 。 
4.1.5 计算 load average 的 内 核 编码 


为 了 让 大 家 对 load average 的 计算 方式 能 了 解 得 更 加 具体 ， 接 下 来 我 们 
来 研究 一 下 它 在 内 核 中 的 代码 。 这 里 参照 Linux 内 核 2.6.23 的 编码 。 


计算 load average 的 函数 为 kernei/timer.c 的 calc-load0 。 每 次 人 硬件 产生 
计时 器 中 断 时 都 会 调用 该 函数 。 在 CentOS 5 中 ， 计 时 右 中 断 的 周期 是 
4ms， 因 此 每 4ms 就 会 调用 一 次 calc-load()。 


unsigned long avenrun[3]; 
EXPORT_SYMBOL (avenrun); 


static inline void calc load 


(unsigned long ticks) 

{ 
unsigned long active tasks; /* fixed-point */ 
static int count = LOAD_ FREQ; 


count -= ticks; 
if (unlikely(count < 6)) { 
active tasks = count active tasks 


CALC_LOAD(avenrun[6]，EXP 1, active tasks); 
CALC LOAD(avenrun[1], EXP 5, active tasks); 
CALC_ LOAD(avenrun[2], EXP_ 15, active tasks); 
count += LOAD FREQ; 

} while (count «< ©); 


可 以 看 出 ， 在 calc-load() 函数 中 ， 全 局 数组 averun 中 存储 了 
count_active_tasks() 函数 的 计算 结果 。count_active_tasks()， 顾 名 思 
义 ， 束 是 统计 该 时 间 系 统 内 存在 的 “Active 的 任务 (进程 ) 数 ”"。 但 这 
个 “Active 的 任务 ”究竟 是 什么 呢 ?” 如 果 再 试 着 追踪 处 理 流程 ， 就 会 发 现 
是 kernel/sched.c 的 nr_active() 函数 。 


unsigned long nr_active 


(void) 
{ 


unsigned long i, running = 6，uninterruptible = 6; 


for_ each online cpu(i) { 
running += cpu_rq(i)->nr_running; 
uninterruptible += cpu_rq(i)->nr_uninterruptible; 


} 


if (unlikely((long)uninterruptible < 6)) 
uninterruptible = 0; 


return running + uninterruptible; 


for_each_online_cpu() 枚 举 了 cpuid( 即 枚 举 了 系统 当前 使 用 所 有 CPU 
核心 的 ID 值 ) 。 还 有 ，cpu_rq0 是 取得 CPU 相关 运行 队列 “的 宏 。 
此 在 这 里 可 以 清楚 地 按 顺 序 查 看 各 CPU 的 运行 队列 。 在 运行 队列 中 ， 


? 存储 等 待 状态 的 任务 描述 符 的 队列 。 


e。 cpu_rq(i)->nr_running 


e。 cpu_rq(D)->nr_uninterruptible 


获取 以 上 两 个 数值 并 进行 计算 ， 然 后 返回 结果 。 从 名 字 就 能 看 出 ， 二 者 
分 别 相 当 于 各 运行 队列 内 的 TASK_RUNNING 和 
TASK_UNINTERRUPTIBLE 的 进程 数 。 


这 个 nr_active() 所 返回 的 数值 会 被 传递 给 前 述 的 calc_load0 函数 ， 并 以 
1 分钟 、5 分 钟 、15 分 钟 为 单位 来 进行 计算 ， 计 算得 出 的 值 将 存储 在 
averun 数组 中 ， 因 此 averun 数组 中 所 存储 的 数值 就 是 load average 的 原 
形 。 


如 果 用 户 进程 发 出 了 读 取 proc 文件 系统 的 /procloadavsg 的 请 求 ， 内 核 
的 averun 数组 加 以 整理 并 发 送 至 用 户 空 间 。 让 我 们 先 来 
确认 一 下 输出 。 


% cat /proc/loadavg 
0.61 0.65 6.66 4/46 16511 


top 或 uptime 命令 从 该 输出 中 取得 load average， 并 将 其 显示 出 来 。 


在 本 节 中 ， 我 们 了 解 了 在 系统 源码 中 ， 每 次 计时 器 中 断 都 会 进行 load 
average 的 计算 ， 即 代码 将 通过 统计 TASK_RUNNING 及 
TASK_UNINTERRUPTIBLE 状态 的 等 待 任 务 数 来 计算 出 load average。 


4.1.6 ”通过 load average 判断 CPU 使 用 率 和 LO 等 待 时 间 


通过 观察 load average 具体 的 计算 方法 ， 束 可 以 明白 该 数值 表示 了 CPU 
负载 和 IO 负载 。 例 如 系统 负 答 过 重 的 情况 下 ， 大 多 数 也 是 因为 CPU 
或 IO 出 现 了 问题 。 因 此 ， 查 看 load average 后 发 现 需 要 有 所 应 对 时 ， 
接 下 来 就 要 调查 CPU 或 IO 哪里 有 问题 。 


使 用 sar 来 查看 CPU 使 用 率 及 1/O 等 待 时 间 


通常 在 系统 中 ，CPU 使 用 率 和 LO 等 候 时 间 (VO 等 待 率 ) 等 指标 都 是 不 
断 在 变化 的 ， 可 以 通过 sar 命令 来 确认 这 些 指 标 。 正 如 sar (System 
Activity Reporter) 的 全 称 所 表述 的 那样 ， 该 工具 常 被 用 于 浏览 系统 状况 
报告 。 该 工具 包含 在 sysstat 软件 包 内 。 


图 4.1.5 是 计算 密集 型 服务 器 系统 中 sar 的 运行 结果 。 


% sar 
Linux 2.6.19.2-163.hatena.centos5 (jubuichi.hatena.ne.jp) 82/68/68 


66:600:01 CPU %user %nice %system  %iowait 
66:16:61 all 
060:20:062 all 
060:30:061 all 
66:46:61 all 
Average: all 


图 4.1.5 ”sar 的 运行 实例 (计算 密集 型 服务 嚣 系统) 


详细 的 用 法 我 们 稍 后 再 做 讲述 。sar 优 于 其 他 工具 的 一 点 是 ， 可 以 随 着 
时 间 的 流逝 来 浏览 并 比较 负载 指标 。 例 如 在 上 述 00:00~00:40 时 间 段 
中 ，CPU 使 用 率 的 变迁 就 可 以 通过 sar 来 确认 。“%user” 是 用 户 程序 的 
CPU 使 用 率 ，“%system” 是 系统 所 占用 的 CPU 使 用 率 。 当 load average 
较 高 且 这 些 CPU 使 用 率 的 数值 也 同样 较 高 的 情况 下 ， 就 可 以 断定 造成 
等 待 进程 负载 的 原因 是 CPU 资源 不 足 。 


CPU 的 用 户 模 式 和 系统 模式 
CPU 的 用 户 模式 和 系统 模式 分 别 是 : 


。 用 户 模式 : 用 户 程序 运作 时 的 CPU 模式 ， 也 就 是 一 般 的 应 用 软件 
运作 模式 

。 系统 模式 : 系统 程序 即 内 核 运作 时 的 CPU 模式 
用 户 及 系统 占用 CPU 资源 是 分 开 来 表述 的 。 
通常 在 应 用 程序 的 CPU 负载 较为 严峻 的 情况 下 ， 用 户 模 式 的 CPU 使 用 
率 会 变 高 。 也 就 是 说 ， 用 户 应 用 程序 处 于 正在 进行 计算 的 状态 。 必 一 方 
面 ， 例 如 运行 大 量 进程 和 线程 时 ， 进 程 及 线程 的 切换 次 数 较 多 ， 或 者 系 
统 调用 较为 频繁 时 ， 系 统 模 式 的 CPU 使 用 率 会 变局 。 


用 户 模式 及 系统 模式 的 CPU 占用 行为 的 不 同 如 图 4.1.6 所 示 。 


四 
+ ey 本 本 


系统 模式 
图 4.1.6 CPU 时 间 的 不 同 

正如 本 章 开 头 叙 述 的 那样 ， 多 任务 的 实现 方式 就 是 内 核 在 短 时 间 内 切换 
进程 。 也 就 是 说 ， 在 切换 进程 时 ， 内 核 必 定 处 于 运作 状态 。 这 时 如 果 系 
统 发 生 调 有 用， 运行 状态 就 会 从 用 户 程 序 变 迁 到 内 核 。 

IO 密集 型 服务 器 的 sar 

接 下 来 是 IO 密集 型 服务 器 中 的 sar 的 结果 (图 4.1.7) 。 


2.6.18-8.1.8.el5 (takehira.hatena.ne.jp) 62/68/68 


CPU %user %nice %system %iowait %steal 
all 0.14 0.60 17:22 22.88 60.60 
all 0.15 0.60 16.60 22.84 60.60 


all 0.16 0.60 19.66 18.99 0.60 
all 0.106 0.60 8.50 13 .69 0.60 
all 0.14 0.60 15.34 19.45 0.60 


图 4.1.7 sar 的 运行 实例 (LO 密集 型 服务 器 ) 


“9%6iowait” 是 IO 等 待 率 。load average 较 高 且 该 值 较 高 时 ， 可 以 判断 是 
由 于 VO 瓶 贷 所 造成 的 负载 状况 。 


查 明了 具体 是 IO 的 原因 还 是 CPU 的 原因 后 ， 就 可 以 通过 其 他 指标 来 
进行 更 加 详细 的 调 碍 ， 例 如 参考 内 存 使 用 率 和 SWAP 交换 区 的 发 生 情 


像 这 样 ， 在 辨别 瓶颈 时 ， 从 load average 等 总 括 性 的 数据 着 手 ， 人 参考 
CPU 使 用 率 和 LO 等 竺 时间 等 具体 的 数字 ， 从 而 自 顶 回 下 地 快速 排查 各 
进程 状态 是 非常 有 效 的 策略 。 而 县 体 以 怎样 的 顺序 执行 这 些 方针 呢 ? 当 
然 需要 结合 当下 内 核 的 行为 ， 以 及 此 类 负载 数值 的 程序 逻辑 上 的 计算 方 
法 来 决定 。 还 是 那 句 话 ， 要 想 查 看 负载 ， 必 须 清 楚 内 核 运 作 的 情况 。 


4.1.7 多 核 CPU 与 CPU 使 用 率 


近来 的 基于 x86 的 CPU 正在 向 多 核心 (Multi-Core) 结构 发 展 。 在 多 核 
CPU 中 ， 即 便 只 有 单个 物理 的 CPU， 在 系统 看 来 也 好 像 安 装 了 多 个 
CPU 一 样 。Linux 内 核 中 ，CPU 使 用 率 统计 了 各 个 CPU 核心 的 详情 。 
下 面 我 们 束 来 确认 一 下 。 


利用 sar 工具 的 -P 选项 。 图 4.1.8 是 安装 了 四 核 CPU 的 (Quad-Core 
CPU) 服务 器 中 sar 的 结 


-P ALL | head -13 
2.6.19.2-163.hatena.centos5 (jubuichi.hatena.ne.jp) 82/68/68 


CPU % %nice %system %iowait  %steal 
all . 0 . 1 06. 0 . 


0 
0 
0 
0 
6 . 
0 
0 
0 
0 


OOOWPOOOU 
OOOOOOoOOO® 
OOOOoOOOoOOO® 


图 4.1.8 sar -了 的 运行 实例 (计算 密集 型 服务 器 ， 安 装 了 多 核心 的 
CPU) 


各 CPU (各 核心 ) 都 附带 有 CPU ID 号 码 ， 在 输出 的 CPU 信息 中 可 以 
通过 此 号 码 进 行 确 认 ， 以 得 到 每 个 CPU 的 使 用 率 情 况 。 


这 是 计算 密集 型 服务 器 的 情况 ， 下 面 再 来 看 看 在 IO 密集 型 服务 器 中 的 
结果 。 首 先 不 使 用 -P 选项 ， 只 查看 统计 结果 (图 4.1.9) 。 


% sar | head 
Linux 2.6.18-8.1.8.el5 (takehira.hatena.ne.jp) 62/68/68 


60:60:061 CPU %user %nice Xsystem Xiowait  %steal 
60:1060:061 all 0.14 0.00 17 .22 22.88 0.00 
606:20:01 all 0.15 60.60 16.60 22.84 0.00 
060:30:01 all 6.16 60.60 19.66 18“99 0.60 


图 4.1.9 ”sar 的 运行 实例 (VO 密集 型 的 服务 器 ， 安 装 了 多 核心 的 
CPU ) 


可 以 看 出 WO 等 待 〈%iowait 栏 ) 平均 为 20% 左右 。 该 服务 器 使 用 了 双 
核心 的 CPU (Dual Core CPU) ， 可 以 通过 sar -P 查看 各 CPU 及 整个 
CPU 的 LO 等 待 情况 〈 图 4.1.10) 。 


% sar -P ALL | head 
Linux 2.6.18-8.1.8.el5 (takehira.hatena.ne.jp) 62/68/68 


CPU %nice %system  %iowait %steal 
all ‘ 60.60 17.22 22. 0.060 
.00 34.64 45. 


图 4.1.10 


CPU) 
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sar -P 的 运行 实例 (LO 密集 型 的 服务 器 ， 安 装 了 多 核心 的 


结果 有 点 儿 意 外 。1O 等 待 大 体 上 只 是 在 CPU 0 发生 着 ，CPU 1 则 几乎 
没有 工作 。 


在 安装 了 多 核心 的 CPU 且 只 存在 一 个 磁盘 时 ， 单 位 核心 的 CPU 负载 可 


以 分 流 到 其 他 的 CPU 核心 ， 但 IO 负载 却 不 能 进行 分 流 ， 因 此 sar 的 
输出 结果 就 会 出 现 仿 其。 虽然 IO 等 竺 平均 为 20% 左右 ， 并 不 是 太 高 ， 
但 可 能 会 造成 整个 CPU 的 IO 等 待 数值 产生 明显 俩 着 。 因 此 在 安 闭 多 
核 处 理 器 的 环境 中 ， 根 据 情 况 还 需要 得 看 CPU 中 每 个 核心 的 使 用 率 情 
况 。 


4.1.8 ”如 何 计算 CPU 的 使 用 率 

与 load average 相同 ， 了 解 CPU 使 用 率 的 具体 计算 方法 ， 对 分 析 sar 和 
top 命令 的 输出 结果 是 很 有 帮助 的 。 此 外 也 能 更 清楚 地 了 解 所 输出 的 多 
核 CPU 占用 率 各 项 数值 的 意义 。 


得 出 CPU 使 用 率 的 步骤 与 load average 类 似 ， 即 通过 计时 器 中 断 在 内 核 
中 进行 ”。 


ee 的 中 断 信号 存在 差异 ， 但 两 者 所 使 用 的 信号 都 是 硬件 以 一 定 的 周期 发 


load average 是 计算 CPU 相关 运行 队列 中 正在 保持 的 进程 描述 符 的 数 
量 。load average 的 数值 存放 在 内 核 的 全 局 数组 中 。 


而 CPU 使 用 率 的 运算 则 有 些许 不 同 。CPU 使 用 率 的 计算 结果 不 是 放置 
到 全 局 数组 中 ， 而 是 在 为 每 个 CPU 所 准备 的 专门 区 域 中 进行 存放 “ 。 
正 因为 为 每 个 CPU 划分 了 专门 的 区 域 存放 数据 ， 因 此 在 sar 中 才 可 以 
获得 每 个 CPU 的 具体 信息 。 


4 具体 是 在 内 核 中 的 cpu_usage_stat 结构 体 中 实现 的 。 


为 了 完成 进程 的 切换 工作 ， 内 核 会 在 各 进程 生成 之 后 记录 进程 所 使 用 的 
CPU 时 间 ， 这 通常 被 称 为 “进程 记 账 ”(Process Accounting) 。 根 据 该 进 
程 记 账 获得 的 记录 ， 调 度 器 可 以 相应 地 降低 CPU 占用 时 间 过 长 的 进程 
的 优先 级 ， 或 者 在 该 进程 进行 一 定 的 计算 后 ， 将 CPU 让 渡 给 其 他 的 进 


程 。 


通过 统计 各 进程 的 CPU 使 用 时 间 ， 可 以 了 解 CPU 被 占用 的 情况 。 将 其 
换算 为 单位 时 间 的 计算 结果 ， 束 可 以 得 出 CPU 使 用 率 。 


这 里 有 如 下 两 处 关键 点 : 


。 load average 是 系统 全 局 的 计算 结果 


。 CPU 使 用 率 和 LO 等 待 时间 是 根据 类 型 及 具体 使 用 的 CPU 来 保 
存 的 计算 结 


据 此 就 可 以 弄 清楚 两 个 指标 的 差异 : 
。 load average 是 整个 系统 的 负载 的 指标 ， 不 能 进行 详细 的 分 析 


。 CPU 使 用 率 和 LO 等 竺 时 间 既 可 以 作为 整体 的 统计 报告 来 看 ， 也 
可 以 作为 具体 的 指标 来 看 


4.1.9 ”进程 记 账 的 内 核 编码 
在 了 解 了 进程 记 账 的 概要 之 后 ， 为 了 能 更 确切 地 理解 ， 还 需要 查看 进程 


记 账 的 实际 编码 。 首 先 ， 查 看 include/linux/kernel _stat.h 中 定义 的 
cpu_usage_stat 结构 体 和 kernel_stat 结构 体 。 


struct cpu_usage_stat 


{ 
cputime64 七 User; 
cputime64 t nice; 
cputime64 t system; 
cputime64 t softirq; 

_t irg; 

cputime64 t idle; 
cputime64 七 iowait; 
cputime64 七 steal; 

}; 


struct kernel stat 


{ 
struct cpu usage_ stat cpustat; 
unsigned int irqs[NR_ IRQS]; 


}; 
DECLARE PER CPU(struct kernel stat, kstat); 


该 结构 中 记录 并 保存 了 计算 得 出 的 CPU 使 用 时 间 等 数据 。 
请 看 cpu_usage_stat 结构 体 ， 可 以 发 现 ，sar 所 输出 的 项 目 ， 如 user、 


system、iowait 等 成 员 都 可 以 在 该 结构 体 中 确认 。kernel_stat 结构 体 中 包 
含 了 cpu_usage_stat 结构 体 ， 另 外 在 kernel_stat 结构 体 中 还 使 用 了 
DECLARE_PER_CPU() 宏 声明 了 每 个 CPU。 


进程 记 账 的 实际 处 理 是 在 kernel/timer.c 的 update_process_times() 函数 
中 定义 的 。 每 当 计 时 器 中断 时 ， 该 函数 都 会 被 调用 。 在 
update_process_times() 内 ， 可 以 判断 从 之 前 的 进程 记 账 处 理 开始 到 现在 
这 段 时 间 内 当前 进程 的 行为 ， 并 更 新 统计 信息 。 


void update process_times 


(int user_ tick) 

{ 
struct task struct *p = current; 
int cpu = smp_processor id(); 


/* Note: this timer irq context must be accounted for as well. */ 
if (user tick) 

account user time(p, jiffies to cputime(1)); 
else 

account_ system time(p, HARDIRQ® OFFSET, jiffies to cputime(1)); 


首先 ， 通 过 current 宏 来 获取 当前 进程 的 进程 描述 符 。 然 后 根据 
user_tick 的 数值 来 判断 分 支 。user_tick 会 判断 最 近 的 时 间 具 体 是 用 户 时 
间 还 是 系统 时 间 。 


如 果 是 用 户 时 间 ， 则 调用 account_user_time() 函数 ， 人 否则 则 调用 
account_system_time( 函数 。 以 下 来 看 看 account_user_time() 的 实现 机 
制 |。 


void account user time 


(struct task struct *p, cputime t cputime) 


{ 
struct cpu usage stat *cpustat = &kstat this cpu.cpustat; 
cputime64 t tmp; 


p->utime = cputime add(p->utime, cputime); 


/* Add user time to cpustat. */ 
tmp = cputime to cputime64(cputime); 
if (TASK NICE(p) > 9) 
cpustat->nice = cputime64 add(cpustat->nice, tmp); 
else 


cpustat->user = cputime64 add(cpustat->user, tmp); 


过 参数 传递 的 “p” 是 当前 进程 的 进程 描述 符 。 


首先 ， 获 取 运 云 行 中 的 CPU 所 用 的 cpustat 结构 体 。 接 着 ， 使 用 
cputime_add 宏 更 新 当前 进程 的 utime 成 员 。 这 样 一 来 ， Wi 户 模 
式 所 消耗 的 CPU 时 间 的 数值 就 完成 了 更 新 。 然 后 ， 针 对 cpustat 结构 体 
的 nice 或 user 数值 ， 使 用 cputime64_add 宏 以 同样 的 方式 算出 经 过 时 

间 。 


另外 ，account_system_time0 是 如 何 实现 的 呢 ? 


void account system time(struct task_struct *p, int hardirq offset, cputime 
{ 

struct cpu usage stat *cpustat = &kstat this cpu.cpustat; 

struct rq *rq = this rq(); 

cputime64 t tmp; 


p->stime = cputime add(p->stime, cputime); 


/* Add system time to cpustat. */ 
tmp = cputime to cputime64(cputime); 
if (hardirq count() - hardirq offset) 
cpustat->irq = cputime64 add(cpustat->irq, tmp); 
else if (softirq count()) 


cpustat->softirq = cputime64 add(cpustat->softirq, tmp); 
else if (p != rq->idle) 

cpustat->system = cputime64 add(cpustat->system, tmp); 
else if (atomic read(&rq->nr iowait) > 0) 

cpustat->iowait = cputime64 add(cpustat->iowait, tmp); 
else 


cpustat->idle = cputime64 add(cpustat->idle, tmp); 
/* Account for system time used */ 
acct_ update integrals(p); 


虽然 这 里 也 以 同样 的 方式 进行 了 处 理 ， 但 是 之 前 的 
update_process_times() 函数 中 所 摘 述 的 “如 果 用 户 模式 不 工作 则 系统 模式 
工作 ”只 是 一 个 比较 粗略 的 条 件 分 文 。 实 际 上 当 用 户 模式 不 工作 时 ， 还 
存在 什么 都 没 做 的 idle 状态 、 系 统 模 式 计算 时 间 、1/O 等 竺 时 间 等 情 
况 。 知 要 进行 上 述 这 些 判断 ， 需 要 深入 了 解 cpu_usage_stat 结构 。 


米 米 米 


虽然 稍微 有 些 复 杂 ， 不 过 我 们 还 是 了 解 了 CPU 使 用 率 统计 的 更 新 机 
制 。 这 样 一 来 ， 我 们 便 能 清楚 地 掌握 sar 及 top 命令 中 所 罗列 的 各 个 指 
标 共 体 是 表示 什么 的 了 。 


4.1.10 ”线程 和 进程 

虽然 稍微 有 些 离 题 ， 但 还 是 有 必要 稍微 了 解 一 下 进程 和 线程 。 

通常 情况 下 ， 线 程 是 比 进程 还 要 小 的 运行 单位 。 在 进程 中 通常 能 够 使 多 
个 线程 同时 运作 ， 这 就 叫做 多 线程 。 若 要 在 一 个 程序 中 同时 并 行 多 个 处 
理 ， 可 以 采用 以 下 方式 ”: 


5 也 有 在 单位 线程 中 通过 事件 驱动 (Event Driven ) 进行 处 理 的 方法 。 


。 通过 生成 多 个 进程 确保 多 个 环境 的 运行 《~ 多 进程 ) 
。 通过 生成 多 个 线程 确保 多 个 环境 的 运行 《~ 多 进程 ) 


MySQL 是 利用 多 线程 来 处 理 客户 端的 请 求 。Apache 中 若 将 MPM 选项 
设 为 “prefork”， 就 可 以 实现 多 进程 ， 若 选择 “worker”， 则 可 以 实现 多 进 
程 + 多 线程 的 运作 。 


多 进程 (图 4.1.11) 和 多 线程 (图 4.1.12) 存在 根本 性 的 不 同 : 前 者 拥 
有 属于 自己 独立 的 内 存 空间 ; 后 者 则 是 共享 的 内 存 空间 。 因 此 后 者 具有 
更 经 济 的 内 存 消 耗 ， 而 且 在 进程 切换 时 不 发 生 内 存 空 间 置 换 ， 运 算 成 本 
相对 较 低 。 需 要 大 量 运行 环境 的 程序 ， 采 用 多 线程 比较 有 利 。 


虚拟 地 址 空间 


maintf } maint } 
do_hogel } do_hogel( ) 


do_fugal ) do_fugal ) 


父 
图 4.1.11 多 进程 〈 内 存 空 间 不 同 。 复 制 ) 类 
※ SP: 栈 指针 ; PC: 程序 计数 器 。 


虚拟 地 址 空间 


进程 2 


进程 1 


图 4.1.12 ”线程 〈 内 存 空 间 相 同 ) 
内 核 中 的 进程 和 线程 
但 是 以 上 只 是 从 用 户 和 角度 来 看 进程 和 线程 的 差异 。 


而 在 内 核 内 部 ， 进 程 和 线程 的 处 理 方 式 则 大 致 相同 。 针 对 一 个 线程 分 配 
一 个 进程 描述 符 ， 进 程 和 线程 用 完全 一 样 的 逻辑 调度 。 因 此 ， 在 运作 多 
线程 应 用 程序 时 ， 负 载 计 算 的 方式 也 不 会 发 生 什 么 改变 。 


顺带 一 提 ， 线 程 在 内 核 中 有 时 被 称 为 LWP=Light Weight Process ， 即 
轻 量 进程 。 

ps 和 线程 

对 内 核 来 说 ， 进 程 和 线程 基本 相同 。 但 是 从 用 户 的 角度 来 看 ， 线 程 则 是 
ee 轧 之 ， 线 程 是 比 进程 更 小 的 概念 ， 进 程 包含 
线程 。 在 通过 ps 浏览 多 线程 的 全 部 线程 时 ， 需要 相关 的 选项 。 


例如 在 查看 mysqld 的 进程 时 ， 只 能 看 到 如 图 4.1.13 所 示 的 两 个 进程 。 
这 里 如 图 4.1.14 那样 给 ps 增加 -L 选项 。 


% ps -elf | egrep (CMD|mysql) 
F S UID PID PPID C PRI NI ADDR SZ WCHAN STIME TTY 


TIME CMD 
4 9 root 3297 1 6 81 8 - 13266 wait Jan25 ? 
66:66:66 /bin/sh /usr/bin/mysqld_ safe 


4 S mysql 3329 3297 99 75 0 - 166738 stext Jan25 ? 
19-65:11:32 /usr/libexec/mysqld 


图 4.1.13 ps 的 运行 实例 


% ps -elf -L | egrep (CMD|mysql) | head 
F S UID PID 


PPID LWP 
C NLWP 


PRI NI ADDR SZ WCHAN STIME TTY 
TIME CMD 
4 S root 3297 1 3297 0 1 81 0 - 13266 wait Jan25 ? 
60:60:60 /bin/sh /usr/bin/mysqld safe 
4 S mysql 3329 


3297 3329 6 37 

75 0 - 161251 - Jan25 ? 
66:11:23 /usr/libexec/mysqld 
1S mysql 3329 

3297 3332 8 37 

75 0 - 161251 - Jan25 ? 
66:63:44 /usr/libexec/mysqld 
1 S mysql 3329 

3297 3333 8 37 

75 0 - 161251 - Jan25 ? 
66:63:44 /usr/libexec/mysqld 
1S mysql 3329 

3297 3334 6 37 

75 0 - 161251 - Jan25 ? 
61:66:69 /usr/libexec/mysqld 
1S mysql 3329 


3297 3335 8 37 


80 0 - 161251 - Jan25 ? 
60:60:60 /usr/libexec/mysqld 
< 以 下 省 略 > 


图 4.1.14 ”使 用 -L 选项 显示 单位 进程 的 所 有 线程 


这 样 一 来 就 多 出 了 几 行 输出 的 内 容 ， 在 此 多 出 的 部 分 就 是 线程 。 请 注意 
Header 的 “PID” 和 “LWP” 列 。PID 是 进程 ID， 但 是 mysqld 的 进程 ID 完 
全 相同 。 另 一 方面 ，LWP 是 线程 ID 。 从 进程 ID 相同 但 线程 ID 不 同 可 
以 得 出 ， 这 些 线程 是 在 同一 进程 内 被 建立 的 多 个 线程 。 


“NLWP”(Number ofLWPs) 是 线程 个 数 。 在 此 可 以 看 出 ，mysqld_safe 
只 有 一 个 线程 ， 也 就 是 其 目 身 ， 而 mysqld 线程 却 被 生成 了 37 个 。 


LinuxThreads 和 NPTL 


由 于 历史 原因 ，Linux 中 有 多 个 实现 多 线程 的 机 制 。 虽 然 目 前 统一 为 
了 “NPTL”(Native POSIX Thread Library) ， 但 是 稍 旧 的 发 行 版 还 有 可 


能 采用 的 是 “LinuxThreads” 实 现 机 制 | 。 
LinuxThreads 和 NPTL 几乎 没有 什么 区 别 ， 但 是 在 使 用 ps 查看 时 ， 
LinuxThreads 的 显示 和 进程 几乎 相同 。 在 NPTL 中 不 使 用 -L 选项 就 不 
能 确认 线程 ， 而 使 用 LinuxThreads 就 算 不 添加 -L 选项 也 能 确认 线程 ， 
请 注意 不 要 混淆 。 
4.1.11 ps、sar、vmstat 的 使 用 方法 
下 面 我 们 回 到 正题 。 在 此 之 前 我 们 了 解 了 : 

。 负载 监控 的 基本 策略 

。 load average 的 计算 过 程 

。 CPU 使 用 率 的 计算 过 程 


理解 了 上 面 的 内 容 ， 就 可 以 明白 各 命令 工具 输出 的 各 项 指标 。 基 于 上 文 
的 知识 ， 下 文 将 深入 介绍 ps 、sar 、vmstat 等 常用 工具 的 使 用 方式 。 


ps ...... 输出 进程 信息 


ps 〈Report Process Status) 是 输出 进程 信息 的 软件 。 是 从 用 户 空间 调用 
内 核 中 所 保持 的 进程 描述 符 中 存储 信息 的 工具 。 


让 我 们 来 看 一 下 ps auxw 命令 输出 的 信息 (图 4.1.15〉 ， 下 面 是 其 中 主 
要 的 几 列 。 


%CPU : 运行 ps 命令 时 该 进程 的 CPU 使 用 率 
%MEM : 以 百分比 表示 进程 的 物理 内 存 消 耗 程度 


VSZ、RSS : 分 别 是 该 进程 所 确保 的 虚拟 内 存 区 域 的 大 小 及 物理 
内 存 区 域 的 大 小 (详情 见 后 ) 


STAT : 像 之 前 介绍 的 那样 ， 该 项 目 显示 了 进程 的 状态 。 是 非常 
重要 的 项 目 


TIME : 表示 CPU 占用 时 间 的 项 目 〈 详 情 见 后 ) 


% ps auxw 

USER PID %CPU %MEM STAT START 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 
Feb65 


© 

© 

© 
G@OOSOOSOOCOOOCS 


© 


0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 
0 


G@OSOSOSOOCOOOCOOOOOCS 
G@OOOSOOCOOOCOOOOOCS 
G@OSOOSOOCOOOCOOOOOCS 
G@OOSOSOOCOOOOCOOOOOCS 


图 4.1.15 确认 ps auxw 的 输出 
VSZ 5 RSS...... 虚拟 内 存 和 物理 内 存 的 指标 


VSZ (Virtual Set Size) 是 为 了 文 持 进程 的 正常 运作 所 设置 的 虚拟 内 存 
区 域 的 大 小 ，RSS (Resident Set Size) 是 物理 内 存 区 域 的 大 小 ， 但 这 里 
为 什么 会 出 现 两 个 内 存 的 指标 呢 ? 


不 仪 是 Linux， 多 任务 操作 系统 的 一 个 重要 功能 就 是 存在 虚拟 内 存 的 结 
构 。 所 请“ 虚拟 内 存 ”(Virtual Memory) ， 是 指 当 程序 需要 使 用 内 存 

时 ， 并 不 是 直接 让 物理 内 存 介 入 处 理 ， 而 是 让 物理 内 存 通 过 软件 抽象 
层 ， 实 现 被 称 为 "页面 文件 ”(Paging， 也 称 虚拟 内 存 ) 的 虚拟 内 存 结 

构 ， 系 统 将 对 该 虚拟 内 存 区 域 进行 相应 的 管理 。 


一 些 进 程 需 要 确保 足 量 的 内 存 空间 才能 正常 工作 ， 但 由 于 多 任务 系统 你 
护 的 关系 ， 用 户 进 程 无 法 直接 访问 硬件， 于 古 便 和 暂时 将 处 理 中 断 ， 并 委 
托 内 核 来 确保 内 存 。 


里 然 内 核 必 须 确保 对 进程 内 存 的 分 配 ， 但 这 里 并 非 交 付 真 实 的 物理 内 存 
区 域 的 地 址 ， 而 是 交付 虚拟 内 存 的 地 址 。 进 程 把 从 内 核 返 回 的 虚拟 内 存 


的 地 址 当成 真实 地 址 ， 然 后 重新 开始 处 理 。 


这 里 需要 留意 的 是 ， 内 核 为 进程 返回 的 虚拟 内 存 地 址 ， 事 实 上 此 时 还 未 
与 物理 内 存 建立 起 实质 的 联系 ， 也 就 是 说 可 以 认为 在 硬件 上 还 没有 划 出 
实际 的 内 存 区 域 。 直 到 进程 对 通过 内 核 得 到 的 虚拟 内 存 区 域 进行 写 入 
时 ， 对 物理 内 存 区 域 的 关联 操作 才 开 始 进 行 ‘图 4.1.16) 。 可 以 说 内 核 
用 虚拟 内 存 这 个 中 间 的 抽象 屋 〈 善 意 地 ) 欺骗 了 进程 。 


RSS 


WE 


交付 虚拟 内 存 。 
只 在 必要 的 时 候 
才 映 射 到 物理 内 
存 上 


一 人 
一 


VSZ 


图 4.1.16 虚拟 内 存 


使 用 虚拟 内 存 结构 能 获得 
项 重要 功能 。 以 下 列举 几 点 


。 通 过 使 用 虚拟 内 存 可 以 欺骗 进程 ， 造 成 可 以 处 理 超出 物理 内 存 容 
量 的 更 大 内 存 空间 的 假象 


使 物理 存储 器 上 零乱 的 内 存 空间 看 起 来 像 是 一 个 连续 的 内 存 空间 
使 进程 认为 每 个 进程 都 拥有 独立 的 内 存 空间 


当 物 理 内 存 不 足 时 ， 长 时 间 没 被 使 用 的 虚拟 内 存 空间 将 解除 与 物 
理 内 存 空 间 的 映射 ， 外 解除 映 时 由 数据 将 一 2 
〈 役 盘 等 ) 上 ， 当 需要 这 些 数 据 时 会 进行 还 原 操 作 ， 这 通常 被 称 
为 “交换 ”(SWAP) 


在 不 同 的 两 个 进程 上 ， 所 使 用 的 虚拟 内 存 空 间 也 不 同 ， 通 过 将 这 
两 个 虚拟 内 存 空间 映射 到 同一 个 物理 内 存 空间 ， 束 可 以 在 两 个 进 
程 间 共享 内 存 。IPCs 共享 内 存 等 就 是 通过 这 种 方式 实现 的 


很 大 的 便利 ， 这 也 是 支撑 多 任务 操作 系统 的 一 


6 Inter Process Communication 的 缩写 ， 即 进程 之 间 的 通信 (功能 ) 。 


VSZ 及 RSS 分 别 会 输出 虚拟 内 存 空间 及 物理 内 存 空间 的 大 小 。 当 频繁 
访问 交换 区 时 ， 通 常 可 以 判断 出 此 时 的 物理 内 存 空间 已 经 不 足以 使 用 ， 
因此 需要 时 长 留意 RSS 的 大 小 ， 针 对 占用 RSS 较 大 的 进程 查找 问题 根 
源 以 及 时 解决 ， 或 者 扩充 物理 内 存 的 容量 以 解决 潜在 的 负载 问题 。 


TIME ...... CPU 占用 时 间 


TIME 是 表示 时 间 的 指标 ， 在 这 里 指 的 是 进程 实际 所 占用 的 CPU 时 
长 。 请 注意 这 里 不 是 生成 进程 后 经 过 的 时 长 。 


进程 实际 使 用 的 CPU 时 间 指 的 是 什么 呢 ? 相信 你 已 经 注意 到 了 ! 通过 
查看 之 前 进程 记 账 中 的 处 理 详 情 ， 就 可 以 看 到 进程 描述 符 中 记录 的 CPU 
使 用 时 间 。 例 如 ， 当 系统 CPU 负载 较 高 时 ， 通 过 查看 ps 的 TIME 项 ， 
就 可 以 分 清 具体 是 哪个 进程 CPU 占用 了 较 多 资源 。 


通过 ps 命令 查看 Blocking 和 Busy Loop 的 差异 


这 里 为 了 加 深 对 CPU 时 间 的 理解 ， 我 们 试 着 做 一 个 实验 。 首 先 尝试 运 
行 两 个 无 限 循环 的 Ruby 脚本 ， 然 后 在 ps 中 确认 该 进程 的 行为 。 第 一 

个 脚本 是 如 代码 清单 4.1.1 所 示 的 只 执行 加 法 的 脚本 (busy_loop.rb)。 运 
行 一 会 儿 该 脚本 后 再 看 看 ps 输出 的 结果 (图 4.1.17)”。 


7 选项 没有 使 用 BSD 形式 的 auxw， 而 是 使 用 了 SysV 形式 的 -Hf， 虽 然 输出 与 先前 介绍 的 稍 有 
不 同 ， 但 是 可 以 看 出 信息 并 没有 很 大 差异 。 


代码 清单 4.1.1 busy_loop.rb 


#!/usr/bin/env ruby 


i=0 
while true 

i += 1 
end 


-fl -C ruby 


naoya 160646 69 60:060:23 


ruby busy_loop.rb 


图 4.1.17 ps 的 运行 实例 (busy_loop.rb， 省 略 了 部 分 列 ) 


这 里 希望 大 家 注意 的 是 表示 状态 的 “S” 列 和 “TIME” 列 。 代 码 清 单 4.1.1 
的 脚本 只 在 CPU 上 进行 无 限 循环 的 加 法 运算 ， 没 有 进入 事件 等 待 的 处 
理 ， 因 而 在 “S” 列 中 ， 可 以 看 出 该 进程 恒 常 显示 为 “R”， 

即 “TASK_RUNNING” 状 态 。 因 为 CPU 一 直 被 消耗 ， 所 以 TIME 即 CPU 
的 占用 时 间 会 随 着 时 间 的 流逝 而 增加 。 此 类 无 限 循环 的 CPU 计算 处 理 
被 称 为 Busy Loop。 

另 一 方面 ， 代 码 清 单 4.1.2 进行 了 什么 样 的 行为 呢 ? 其 实 该 脚本 就 是 读 
取 用 户 在 键盘 输入 的 内 容 的 脚本 (blockingrmb) 。ps 的 结果 如 图 4.1.18 
所 示 。 


代码 清单 4.1.2 blocking.rb 


#!/usr/bin/env ruby 


while true 
puts gets 


end 


% ps -fl -C ruby 


F S UID PID C TIME CMD 
0 S naoya 16753 0 66:66:66 ruby blocking.rb 


图 4.1.18 ps 的 运行 实例 (blocking.rb， 省 略 了 部 分 列 ) 


由 于 等 待 键盘 和 输入， 该 进程 被 Block， 因 此 状态 ， 也 就 
是 “TASK_INTERRUPTIBLE”。 还 有 ， 该 进程 上 i 就 不 
占用 CPU 时 间 。 因 此 即使 等 待 再 长 时 间 ，TIME 的 数值 也 不 可 能 增加 。 


同样 是 无 限 循环 ，Busy Loop 的 脚本 和 被 Block 的 脚本 的 运作 方式 却 存 
在 很 大 差异， 这 通过 ps 命令 所 呈现 的 项 目 也 可 以 看 出 。 知 能 清楚 地 了 
解 进程 的 状态 变迁 和 CPU 占用 时 间 的 计算 机 制 ， 束 能 胸有成竹 地 阅读 
ps 中 各 个 列 的 项 目 了 。 


sar ..….. 全 看 系统 报告 的 各 项 指标 


可 以 查看 系统 报告 的 各 种 指标 的 工具 有 很 多 ， 其 中 通用 又 方便 的 是 sar 
(System Activity Reporter) 。 


sar 是 存在 于 sysstat 软件 包 中 的 指令 ， 有 两 个 用 法 : 

。 退 调 访问 过 去 的 统计 数据 〈 默 认 ) 

。 周期 性 地 确认 当前 数据 
在 sar 中 ， 运 行 了 sadc 的 后 台 程 序 。 知 安装 】 了 sysstat 软件 包 ，sadc 束 
能 自动 从 内 核 收集 报告 进行 存储 。 如 前 所 述 ， 如 果 不 附 加 任何 选项 直接 
sar 指令 的 话 ， 就 可 以 参考 sadc 所 收集 的 过 去 的 CPU 使 用 率 的 统 
计数 据 。 


默认 显示 从 最 近 的 0:00 开始 的 数据 。 想 查阅 昨天 以 前 的 报告 时 ， 可 以 
像 图 4.1.19 那样 用 -f 选项 指定 /var/log/sa 目录 下 保存 的 日 志文 件 。 


% sar -f /var/log/sa/sa64 | head 
Linux 2.6.19.2-163.hatena.centos5 (goka.hatena.ne.jp) 682/64/688 


66:600:01 CPU  %user Mnice %system  %iowait %steal %idle 


60:16:61 all 3.21 0.60 2.51 2.16 0.60 92.12 


600:20:061 all 3.106 0.60 2.48 2.04 8.60 92.38 
60:36:061 all 3.061 0.60 2.34 1.94 0.60 92.71 
600:40:02 all 2.92 0.60 2.29 1.95 0.60 92.84 


图 4.1.19 sar -f 的 运行 实例 


查阅 过 去 的 数据 的 功能 非常 重要 。 例 如 在 发 生 故 障 等 情况 下 ， 为 了 探寻 
故障 的 原因 ， 故 障 发 生前 后 的 数据 就 很 有 价值 。 另 外 还 能 通过 sar 的 数 
0 子 前 后 的 性 能 变化 ， 以 确认 此 次 程序 部 署 是 否 存在 价 


如 果 不 碍 看 过 去 的 数据 ， 而 是 查看 当前 数据 ， 可 以 使 用 类 似 sar 1 
1666 这 样 的 参数 格式 。“1 1666 ”是 “每 隔 1 秒 采 样 一 次 ， 连 续 采 样 
1000 次 ”的 意思 。 


如 图 4.1.20， 可 以 查阅 每 秒 钟 的 CPU 使 用 率 。 如 果 要 确认 现在 系统 正 发 
生 着 什么 ， 多 数 情况 下 使 用 sar 即 可 。 


% sar 1 3 
Linux 2.6.19.2-163.hatena.centos5 (goka.hatena.ne.jp) 82/68/68 


CPU %user %nice %system %iowait  %steal 
all 


all 
all 
all 


图 4.1.20 ”通过 sar 命令 来 查看 当前 数据 


可 以 为 sar 命令 指定 选项 ， 以 查看 CPU 使 用 率 以 外 的 各 数值 。 虽 然 能 

够 通过 不 同 的 选项 来 查阅 大 量 的 报告 ,但 这 里 只 集中 介 绍 几 种 比较 党 用 
的 选项 的 使 用 方式 。 男 外 ， 正 如 上 文 所 介绍 的 那样 ， 用 - P 选项 可 以 得 
阅 每 个 CPU 的 数据 。 


sar -U ...... 查看 CPU 的 使 用 率 


查看 默认 情况 下 的 CPU 使 用 率 等 信息 可 以 使 用 sar -u 命令 (图 
4.1.21) 。 各 列 指标 分 别 为 


。 user : 在 用 户 模式 中 ，CPU 说 消耗 的 时 间 比 例 


。nice : 通过 nice 变更 了 调度 优先 级 的 进程 ， 在 用 户 模 式 下 所 消耗 
的 CPU 时 间 的 比例 


system : 在 系统 模式 中 ，CPU 被 消耗 的 时 间 比 例 
iowait : 磁盘 1/O 等 待 的 Idol 状态 消耗 的 CPU 时 间 比 例 


steal : 利用 Xen 等 系统 虚拟 化 技术 时 ， 等 竺 其 他 虚拟 CPU 计算 
所 占用 的 时 间 比 例 


。idle : CPU 没有 等 待 磁盘 了 TO 的 空闲 时 间 所 占用 的 时 间 比 例 


% sar -ul13 
Linux 2.6.19.2-163.hatena.centos5 (koesaka.hatena.ne.jp) 62/68/68 


CPU %user %nice %system %iowait  %steal 
all 14.89 
all 26.37 
all 17.60 
all 19 .42 


图 4.1.21 sar -u 的 运行 实例 


像 迄今 为 止 所 看 到 的 那样 ， 在 考虑 负载 分 流 时 ，usersysteryiowaitUidle 
等 的 数值 将 被 列 为 重要 的 参考 指标 。 


sar -qd ...... 查看 load average 


站 定 -q 参数 ， 中 以 健 看 运行 队列 中 存在 的 进程 数 、 系统 中 进程 的 大 小 
及 load average 等 (图 4.1.22) 。 该 报告 的 数值 会 随 着 时 间 发 生变 化 ， 
比 其 他 命令 更 方便 。 


-q13 
2.6.19.2-163.hatena.centos5 (koesaka.hatena.ne.jp) 682/68/68 


runq-sz plist-sz ldavg-1 ldavg-5 ldavg-15 
6 123 8.62 0.72 8.81 
123 0.62 0.72 8.81 


0 
2 122 0.62 0.72 0.81 
1 123 0.62 0.72 0.81 


图 4.1.22 sar -gq 的 运行 实例 


sar - 


r .….….. 碍 看 内 存 的 使 用 状况 


指定 -r 参数 ， 可 以 浏览 物理 内 存 的 使 用 状况 。 图 4.1.23 是 在 安装 有 
4GB 的 物理 内 存 的 服务 器 上 执行 sar -Fr 命令 的 结果 。 各 列 的 
kbmemfree 和 kbmemused 中 的 “kb” 是 Kilobyte 的 缩写 。 其 中 几 个 主要 项 
目的 意义 如 下 。 


kbmemfree : 可 用 的 物理 内 存 容量 
kbmemuserd : 使 用 中 的 物理 内 存 容量 

memused : 物理 内 存 的 使 用 率 

kbbuffers : 被 作为 内 核 上 的 缓冲 区 使 用 的 物理 内 存 容量 
kbcached : 内 核 中 被 作为 缓存 使 用 的 物理 内 存 容量 
kbswpfree : 可 用 的 交换 区 容量 


kbswpued : 使 用 中 的 交换 区 容量 


% sar -r | head 
Linux 2.6.19.2-163.hatena.centos5 (koesaka.hatena.ne.jp) 82/68/ 


66:06:61 kbmemfree kbmemused %memused kbbuffers kbcached kbswpfree 
60:10:061 522724 3454812 86.86 114516 2236880 2048204 
66:20:01 534972 3442564 86.55 114932 2225880 2048204 
600:30:01 437964 3539572 88.99 115348 2238952 2048204 


60:460:01 491184 3486352 87.65 115768 2251446 20482604 


60:50:061 491268 3486328 87.65 116160 2263248 20482604 
601:60:061 457364 3520172 88.50 116524 2274732 2048204 
61:16:61 453172 3524364 88.61 116964 2281576 20482604 


图 4.1.23 sar -r 的 运行 实例 (省 略 部 分 列 ) 


使 用 sar -r ， 可 以 随 奢 时 间 的 推移 掌握 内 存 的 使 用 情况 ， 即 了解 内 存 
其 体 被 用 在 了 什么 地 方 ， 被 使 用 了 多 大 比例 等 。 大 与 后 述 的 sar -W 配 
合 使 用 ， 还 可 以 在 频繁 访问 交换 区 时 ， 了 解 该 时 间 段 内 内 存 的 使 用 情 
况 。 


减轻 IO 负载 及 页 面 缓存 


在 图 4.1.23 中 ,“9%memused” 显 示 为 了 90% 左右 的 数字 ， 可 用 容量 仅 为 
500MB 〈Megabyte) 左右 。 随 着 时 间 的 推移 ， 可 用 容量 kbmemfree 将 越 
来 越 少 ， 可 以 判断 出 未 来 内 存 的 使 用 可 能 会 越 来 越 紧张 。 但 是 这 里 我 们 
忘记 了 Linux 中 “页 面 缓存 ”(Page Cache) 的 存在 。 

Linux 从 磁盘 读 出 一 次 数据 后 ， 会 尽 可 能 地 在 内 存 中 进行 缓存 ， 以 加 速 
下 次 的 磁盘 读 取 (Disk Read) 速度 。 像 这 样 ， 从 内 存 中 读 取 的 数据 的 绥 
存 驶 被 称 为 页 面 缓存 。 

Linux 是 将 内 存 切 分 为 4KB 〈Kilobyte) 的 块 进行 管理 的 ， 该 4KB 的 块 
就 被 称 为 页面"Page)。 页 面 缓存 ， 顾 名 思 义 ， 是 通过 绥 存 页 面 进行 工 
作 的 。 也 就 是 说 ， 从 磁盘 读 取 数据 时 就 建立 相应 的 页 面 缓存 ， 这 样 在 下 
次 读 出 数据 时 ， 直 接 将 数据 从 页 面 缓存 转送 到 用 户 空间 即 可 。 


请 记 住 Linux 平台 中 页 面 缓存 的 行为 策略 ， 即 Linux 将 尽 可 能 地 利用 更 
多 的 内 存 来 转送 页 面 缓 存 。 也 就 是 说 : 


。 无 论 在 磁盘 上 读 取 什 么 数据 ， 
。 只 要 该 数据 在 页 面 缓存 上 不 存在 ， 
。 并 且 有 空余 的 内 存 空间 ， 


。 就 在 页 面 缓存 中 建立 新 的 缓存 〈 而 不 是 蔡 代 旧 的 缓存 ) 


如 采 当 前 没有 足够 的 内 存 用 来 缓存 ， 就 丢 痉 旧 的 缓存 以 更 换 为 新 的 组 
存 。 当 进程 需要 内 存 空间 时 ， 将 优先 释放 页 面 缓存 以 分 配 内 存 。 


在 sar -Fr 的 结果 中 ， 随 着 时 间 的 推移 kbmemfree 会 不 断 减 少 ， 这 是 因 
为 存在 页 面 缓存 的 缘故 ， 从 页 面 缓存 所 分 配 的 内 存 容量 即 kbcached 的 
数值 在 不 断 增加 这 一 点 可 以 看 出 。 


通过 页 面 缓存 减轻 WO 负载 的 实施 效果 


页 面 缓存 可 以 多 大 程度 地 减轻 负载 呢 ? 如 条 数据 被 完全 缓存 在 内 存 中 ， 
因为 几乎 所 有 请 求 都 是 在 读 取 内 存 ， 因 此 可 以 预见 读 取 速 度 将 和 程序 直 
接 读 取 内 存 的 速度 无 寞 。 


例如 ， 将 实际 运行 MySQL 的 数据 库 服务 器 的 内 存 从 8GB 增加 到 
16GB， 增 加 前 后 的 sar -P 6 的 输出 比较 如 图 4.1.24 所 示 。 由 于 该 数据 
库 保存 的 数据 不 到 20GB， 因 此 如 果 有 16GB 的 内 存 ， 束 可 以 缓存 大 部 
分 的 有 效 数据 。 


e 内 存 为 8GB 时 
13:46:61 CPU %user %nice %system %iowait 


%idle 
13:50:01 0 20.57 0.00 15 .61 23.90 


39.92 
14:60:01 0 18.65 0.60 16.54 30.36 


34.45 
14:10:01 0 19 .56 0.60 15.26 20.51 


44.73 
14:20:01 0 19.38 0.60 16.19 21.93 


42.50 


e 内 存 增加 后 
15:26:61 CPU %user %nice %system %iowait 


%idle 
15 :30:01 0 23 . 31 0.00 17.56 09.81 


58.32 


15:406:81 0 22.43 0.60 16.60 60.86 
66.11 

152:50:01 0 22.90 0.60 16.93 1.66 
59 .11 

16:600:01 0 23.54 0.60 18.37 1.62 
57.097 


图 4.1.24 sar -P 0 的 输出 比较 


增加 内 存 的 效果 一 目 了 然 ， 原 本 高 达 20% 的 IO 等 待 (9%iowait) 几乎 


不 存在 了 。 


可 见 ， 特 别 是 在 IO 密集 型 服务 器 中 ， 减 轻 IO 负载 的 有 效 的 方法 就 是 
结合 服务 器 处 理 的 数据 量 安装 相 匹 配 的 内 存 。 


通过 运行 sar -r 命令 ， 可 以 判断 内 核 确 保 了 多 少 绥 存 。 比 较 缓存 的 容 
量 及 实际 应 用 程序 处 理 的 有 效 数 据 量 ， 如 果 数 据 量 较 多 ， 就 需要 考虑 增 
加 内 存 。 通 过 将 数据 合理 地 进行 缓存 ， 就 能 将 磁盘 的 访问 频率 降 至 最 
低 。 使 用 后 述 的 vmstat 工具 ， 束 能 确认 实际 的 磁盘 访问 频率 如 何 。 


在 不 能 增加 内 存 时 ， 可 以 考虑 将 数据 分 割 到 不 同 的 主机 上 。 顺 利 分 割 数 
所 后， 不 仪 能 够 降低 磁盘 VO 的 负载 ， 由 于 扩充 了 缓存 中 的 数据 容 载 
量 ， 因 此 还 可 以 大 幅度 提高 设备 的 吞吐 量 。 


将 所 需 的 数据 整个 放 到 页 面 缓存 上 
如 前 所 述 ， 页 面 缓存 就 是 缓存 ， 在 缓存 失败 时 ， 数 据 目 然 要 从 硬盘 上 读 


取 。 由 于 系统 局 动 后 大 部 分 数据 都 是 未 缓存 的 状态 ， 因 此 大 部 分 的 读 取 
请 求 都 会 被 转送 到 硬盘 而 非 缓存 上 。 


在 运行 MySQL 等 的 数据 库 服 务 器 的 环境 中 ， 当 处 理 大 规模 的 数据 时 ， 
需要 特别 注意 这 一 点 。 


例如 ， 在 重新 启动 服务 器 进行 维护 等 时 ， 之 前 在 内 存 中 被 缓存 的 页 面 绥 
存 将 全 部 被 清空 。 那 么 在 没有 建立 相应 的 缓存 的 情况 下 ， 实 际 运 行 请 求 
数 很 多 的 数据 库 服 务 器 会 发 生 什么 呢 ? 可 以 想象 ， 约 砚 所 有 的 数据 库 访 


问 请 求 都 会 造成 磁盘 IO 的 负载 压力 。 在 大 规模 的 环境 中 ， 基 于 这 个 原 
因 致 使 数据 库 被 锁定 ， 导 致 服务 和 暂 俘 的 情况 屡见不鲜 。 因 此 在 生产 环 声 
中 ， 在 重 局 服务 器 等 操作 后 ， 需 要 首先 将 所 需 的 数据 整个 放 到 页 面 缓存 
上 


例如 ， 当 IO 密集 型 服务 器 的 IO 负载 较 高 ， 奉 吐 数据 有 困难 时 ， 是 殖 
对 页 面 缓存 进行 优化 ， 差 异 是 很 明显 的 。 


图 4.1.25 中 介绍 了 一 个 很 典型 的 数据 报表 。 这 是 在 安装 有 4GB 内 存 的 
MySQL 服务 器 中 ， 在 系统 启动 后 20 分 钟 左右 使 用 sar -r 命令 输出 的 
J 在 系统 启动 后 ， 运 行 了 读 取 MySQL 中 所 有 数据 文件 的 (只 读 ) 
时 序 。 


18:20:01 kbmemfree kbmemused %memused 


kbbuffers kbcached 
18:3060:61 3566992 157272 


11224 506136 
18 :40 :01 3546264 178666 


12752 66548 
18:50:01 112628 3611636 


4312 3499144 
图 4.1.25 ”保持 页 面 缓存 的 实例 (省 略 部 分 列 ) 


启动 该 程序 前 ， 内 存 使 用 率 不 到 5%， 大 约 有 3.5GB 的 可 用 内 存 。 启 动 
该 程序 读 取 数据 文件 后 ， 内 存 使 用 率 提 高 到 了 96.98%。 这 是 因为 程序 
读 取 了 相应 的 数据 文件 ， 此 时 已 经 将 文件 内 容 放 到 了 页 面 缓存 上 。 


sar -W ...... 查看 交换 区 的 吞吐 状况 


站 定 -W 参数 ， 可 以 确认 交换 区 的 吞吐 状况 《图 4.1.26) 。 “pswpin/s” 是 
每 秒 系统 换 入 的 页 面 数 ，“pswpout” 则 与 之 相反 ， 是 每 秒 系统 换 出 的 页 

面 数 。 发 生 频 繁 的 交换 时 ， 服 务 器 的 吞吐 量 性 能 会 大 幅 下 降 。 当 服务 器 
的 状态 不 理想 时 ， 可 以 利用 sar -W 检测 是 否 是 由 于 内 存 不 足 的 原因 使 
交换 区 友 生 了 频繁 的 交换 。 


19:20:601 pswpin/s pswpout/s 


19:36:601 
19:406:061 
19:56:37 
Average : 


图 4.1.26 ”sar -W 的 运行 实例 
vmstat ...... 查看 虚拟 内 存 的 相关 信息 


简单 介绍 一 下 vmstat (Report Virtual Memory Statistics) 的 使 用 方 

法 。vmstat 的 “vm”* 是 指 Virtual Memory 〈 虚 拟 内 存 ) 。 vmstat 是 可 以 
查看 虚拟 内 存 相 关 信 息 的 工具 。 大 多 数 指标 也 都 可 通过 sar 命令 
0 以 实时 确认 CPU 使 用 率 及 实际 的 IO 等 

时 间 。 


We 和 sar 的 使 用 方法 很 相似 。vmstat 1 166 是 “每 隔 1 秒 采 样 
次 ， 连 续 采 样 1000 次 ”的 意思 。 


图 4.1.27 是 vmstat a 各 个 项 目的 意义 请 参阅 man vmstat 
的 帮助 文件 。 但 通过 之 前 的 说 明 ， 从 项 目 名 称 应 该 就 能 想象 到 大 概 的 意 


memory 

free buff cache i i bo in 
61692 342476 118464 165 
61692 342476 118464 101 


61692 342486 118464 161 
61692 342486 118464 161 


图 4.1.27 ”vmstat 的 输出 实例 
图 4.1.27 中 所 示 的 “bi> 和 “bo” 的 数值 的 意义 分 别 为 
e。 bi : 每 秒 从 块 设 备 接收 到 的 块 数 ， 即 读 块 设备 (blocks/s ) 


e。 bo : 每 秒 发 送 到 块 设 备 的 块 数 ， 即 写 块 设 备 〈blocks/s ) 


所 谓 块 设备 〈Block Device) ， 坦 和 白 说 就 是 二 次 存储 装置 ， 也 就 是 人 厂 
盘 。Linux 是 把 便 件 的 输入 输出 分 成 以 下 两 类 进行 处 理 的 。 


。 字符 设备 (Character Device) : 以 字 节 为 单位 进行 输入 输出 的 硬 
件 


。 块 设备 :简称 为 块 ， 以 一 定 大 小 的 块 为 单位 进行 输入 输出 的 硬件 


磁盘 就 相当 于 这 个 块 设备 。 通 过 vmstat 命令 ， 可 以 将 此 时 磁盘 的 读 
(bi) 写 〈bo) 情况 以 块 为 单位 显示 出 来 。 


通过 top 和 sar 命令 ， 可 以 同时 确认 CPU 使 用 率 及 IO 等 竺 时 间 。 但 
是 从 IO 等 待 的 数字 我 们 只 能 看 出 系统 宏观 的 IO 等 待 时 间 ， 如 果 想 知 
道具 体 哪里 发 生 了 LO 的 读 写 ， 可 以 使 用 vmstat 命令 来 进行 确认 。 


4.1.12 ”找到 系统 负载 的 症结 并 解决 


明白 了 如 何 监控 负载 之 后 ， 接 下 来 就 要 进入 优化 系统 的 读 题 了 。 虽 然 这 
么 说 ， 但 是 本 书 中 并 不 会 做 过 多 讲解 。 提 到 “优化 ”这 个 词语 ， 说 不 定 有 
人 会 想 这 是 要 将 软件 性 能 提高 两 三 倍 呢 。 


但 其 实 优化 的 真正 工作 是 “ 找 出 系统 瓶颈 并 加 以 解决 ”。 首 移 需 要 了 解 到 
的 是 ， 想 要 突破 硬件 或 软件 原本 的 性 能 是 怎样 努力 都 无 法 达到 的 ， 我 们 
所 能 做 的 束 是 “充分 友 挥 硬 / 软件 本 来 的 性 能 ， 解 决 可 能 存在 的 问题 ”。 


最 近 的 系统 和 中 间 件 ， 默 认 的 设 定 状 态 束 可 以 充分 友 挥 性 能 。 就 像 即使 
拓宽 了 不 拥堵 的 高 速 公路 车 道 ， 一 辆 汽车 到 达 目 的 地 的 时 间 也 不 会 缩 
短 。 如 果 默 认 的 设 定 已 经 是 最 优 ， 那 么 无 论 再 怎么 改变 设 定 ， 大 多 数 情 
况 下 也 是 没有 效果 的 。 


例如 ， 逻 辑 最 优 的 情况 下 ，CPU 也 需要 10 秒 时 间 计 算 处 理 ， 无 论 怎样 
改动 系统 的 设置 也 不 可 能 缩短 至 10 秒 以 下 。 这 就 是 一 个 典型 的 不 拥堵 
的 高 速 公路 的 例子 。 


但 若是 程序 的 VO 性 能 存在 问题 ， 该 程序 本 来 10 秒 就 可 以 结束 ， 但 结 
果 花 费 了 100 秒 才 完 成 WO 的 读 写 ， 这 种 情况 下 就 可 以 优化 VO 性 能 。 


个 是 拥堵 的 高 速 公 路 的 例子 。 为 了 改善 IO 性 能 ， 需 要 考虑 如 下 问 


。 能 人 否 通过 增加 内 存 确保 足 量 的 缓存 空间 来 解决 
。 原本 数据 量 是 合 过 多 
。 是 否 需 要 变更 应 用 程序 方面 的 VO 算法 


知道 了 问题 的 原因 之 后 ， 根 据 经 验 很 快 束 能 找到 适当 的 解决 办 法 。 而 实 
践 这 一 解决 方法 的 过 程 ， 就 是 所 谓 的 优化 。 


最 后 再 强调 一 这， 为 了 最 大 限度 地 友 挥 硬件 及 系统 的 性 能 ， 需 要 掌握 中 
够 的 经 验 ， 例 如 发 生 瓶 颈 时 需要 能 清楚 地 判明 具体 是 哪里 出 现 了 瓶颈 
等 。 本 章 中 所 说 明 的 有 关系 统 内 部 的 实现 机 制 和 负载 监控 的 方法 ， 都 是 
最 基础 的 知识 。 


4.2 ”Apache 的 优化 


4.2.1 Web 服务 器 的 优化 


截止 到 目前 都 是 在 围绕 系统 进行 讲述 ， 下 面 我 们 将 目光 转向 系统 上 运行 
的 应 用 程序 、Web 服务 器 。 这 里 主要 介绍 广泛 使 用 的 Web 服务 器 : 
Apache HTTP SERVER (Apache) 8 。 


8 URL http://httpd.apache.org/ 


与 系统 的 优化 类 似 ，Web 服务 器 的 优化 也 并 不 是 说 能 够 让 Web 服务 器 
的 性 能 有 两 三 倍 的 提高 。 这 里 的 优化 是 指 充分 发 挥 服务 器 原本 应 有 的 性 


能 。 
4.2.2 Web 服务 器 遭遇 瓶颈 怎么 办 
其 实 ， 当 Web 服务 器 因 超 载 而 不 能 很 好 地 返回 啊 应 时 ， 问 题 基本 上 与 


Web 服务 器 的 配置 并 无 太 大 关系 。Web 服务 器 是 相对 比较 稳定 的 软 
件 ， 在 系统 上 并 不 消耗 过 多 的 资源 。 


问题 只 是 无 啊 应 的 问题 在 Web 服务 硕 上 表现 得 比较 明显 ， 而 其 实 症结 
并 不 一 定 在 Web 服务 器 。 就 像 生病 出 现 了 发 烧 现 象 一 样 ， 光 是 退烧 ， 
病 是 无 法 治愈 的 。 


在 这 样 的 情况 下 ， 无 论 如 何 改动 Apache 的 配置 ， 只 要 其 他 地 方 还 存在 
问题 ， 那 么 再 怎么 调整 Apache 的 配置 也 是 没有 意义 的 ， 请 首先 认识 到 
这 一 点 。 正 如 在 4.1 节 中 所 介绍 的 那样 ， 我 们 不 能 单 改 变 Apache 的 配 
置 来 监控 系统 的 情况 ， 碍 出 问题 的 根源 是 最 重要 的 。 这 里 也 需要 做 
到 “ 列 腊 断 ， 请 监控 >?。 很 多 问题 都 可 以 使 用 目前 为 止 了 解 到 的 ps 、 
sar 、 vmstat 等 工具 找 出 。 


当 人 硬件 和 系统 充分 及 挥 其 性 能 时 ， 古 不 太 会 出 现 负 载 超 标的 情况 的 ， 但 
征 一 旦 发 生 负 载 超标 ， 就 需要 仔细 权衡 Web 服务 器 的 各 项 配置 。 本 文 
将 从 Apache 的 配置 项 目 中 ， 选 取 几 个 在 大 规模 并 发 的 生产 环境 中 可 能 
会 影响 性 能 的 设置 选项 进行 讲解 。 


4.2.3 ”Apache 的 并 发 处 理 与 MPM 
在 讲解 Apache 的 配置 项 目 之 前 ， 先 来 回顾 一 下 Apache 的 并 发 处 理 的 结 


构 


不 仅 限 于 Apache， 面 向 非特 定 的 多 个 客户 端的 公 网 服务 器 都 需要 能 够 

并 发 处 理 来 自 多 个 客户 端的 请 求 。 知 不 进行 并 发 处 理 ， 在 一 个 客户 端 连 
接 服务 器 进行 输入 输出 期 间 ， 其 他 客户 端 将 无 法 连接 到 该 服务 器 (图 

4.2.1) 。 特 别 是 以 Apache 为 代表 的 Web 服务 器 ， 如 何在 同一 时 间 处 理 
0 
能 带 来 很 大 影响 。 


未 并 发 处 理 
图 4.2.1 能 /人 否 并 发 处 理 
目前 常用 的 有 以 下 几 种 并 发 处 理 模式 : 
。 通过 生成 多 个 进程 实现 并 发 处 理 的 多 进程 模式 
。 不 通过 进程 ， 而 使 用 更 轻 量 的 运行 单位 一 一 线程 的 多 线程 模式 
。 通过 监控 输入 输出 事件 ， 在 事件 发 生 时 进行 切换 处 理 ， 即 可 使 用 


单线 程 进行 并 肥 处 理 ， 这 束 是 事件 驱动 的 处 理 模 式 
这 些 模式 各 有 优 缺 上 后， 不 能 肯定 哪个 最 好 。 目 前 也 有 综合 了 这 些 模式 的 


应 用 


Apache 通过 模块 化 清楚 地 分 离 了 内 部 的 各 种 功能 ， 进 行 并 发 处 理 的 核 
心 部 分 也 单独 成 为 了 模块 的 结构 。 在 这 里 ， 模块 通常 被 和 尔 为 

MPM (Multi Processing Module) 。 根 据 所 选择 的 MPM 的 不 同 ， 用 户 
可 以 决定 使 用 不 同 的 并 发 处 理 模 式 。 在 Apache 2.2 中 可 以 使 用 的 MPM 
可 通过 以 下 链接 进行 确认 。 


URL http://httpd.apache.org/docs/2.2/zh-cn/mod/ 
UNIX 环境 中 最 具 代 表 性 的 MPM 是 以 下 两 个 (图 4.2.2) 9: 


9 此 外 还 有 在 worker 上 融合 事件 模式 的 优势 的 “event MPM”， 在 Apache 2.2 版 本 上 该 模块 可 以 
在 实验 的 环境 中 使 用 ， 没 有 被 过 多 地 利用 在 生产 中 。 


。 prefork: 提前 生成 (Prefork) 多 个 进程 以 供 客户 端 连接 的 多 进程 
模式 
。 worker : 多 线程 和 多 进程 的 混合 型 模式 


prefork 进程 worker 


图 4.2.2 UNIX 环境 中 具有 代表 性 的 MPM 


由 于 是 在 编译 时 决定 具体 使 用 哪 种 MPM 模式 的 ， 因 此 之 后 再 决定 使 用 
其 他 MPM 时 基本 上 了 就 需要 重新 编译 Apache。 但 在 Red Hat Enterprise 
Linux 及 基于 Red Hat 的 Cent OS 的 Linux 上 ， 同 时 安装 了 支持 prefork 
和 worker 的 两 种 httpd。 默 认可 以 使 用 prefork 混合 模式 ， 知 要 切换 到 
worker 模式 ， 可 以 在 /etc/sysconfig/httpd 中 进行 如 下 设 定 : 


HTTPD=/usr/sbin/httpd.worker 


prefork 与 worker， 进 程 与 线程 


prefork 是 多 进程 模式 ，worker 是 多 线程 和 多 进程 的 混合 型 模式 。 由 于 
后 者 所 占用 的 内 存 相 对 较 小 ， 因 此 在 大 规模 并 发 环境 中 更 适合 使 用 
worker 模式 。 让 我 们 再 详细 说 明 一 下 。 


从 编程 模型 看 多 进程 /多 线程 的 兰 腊 


Apache 不 仅 可 以 返回 单一 的 HTML 或 图 片 等 静态 文件 ， 还 可 以 结合 
mod_perl 和 mod -php 等 模块 被 作为 AP 服务 器 来 使 用 ， 或 者 如 2.1 节 中 
所 介绍 的 那样 结合 mod_proxy_balancer 模 鼎 外 作为 反问 代 理 使 用 ， 可 以 
看 出 模块 的 选择 可 以 决定 Apache 的 功能 。Apache 2.2 的 使 用 范围 则 更 
加 广泛 (当然 也 存在 一 些 异 议 ) ， 如 今 Rh 与 其 说 是 Web 服务 器 ， 
不 如 说 是 一 个 通用 的 网 络 服务 平台 。 


一 般 来 说 , “多 进程 > 和 “多 线程 > 之 中 ， 后 者 的 编程 模型 往往 更 加 复杂 。 
这 里 我 们 再 来 重新 确认 一 下 图 4.1.11 及 图 4.1.12。 


人 k 享 内 存 。 内 存 空间 是 独立 且 
安 


。 在 多 线程 中 ， 多 个 线程 共 至 内 存 空 间 ， 需 要 留意 个 能 太 生 资源 冲 
突 。 这 也 是 多 线程 编程 复杂 的 原因 


因此 ， 在 第 三 方 的 Apache 模块 中 ， 存 在 不 能 在 多 线程 环境 中 正常 工作 
的 模块 ， 以 及 不 是 基于 多 线程 运行 的 模块 ， 这 些 模块 都 是 以 使 用 prefork 
为 前 提 的 。 
因此 ， 我 们 可 以 对 这 两 种 模块 做 出 如 下 定位 。 

。 prefork : 该 MPM 具有 更 高 的 稳定 性 和 辐 后 兼容 性 

。 worker : 该 MPM 的 可 扩展 性 更 强 


需要 考虑 使 用 第 三 方 模块 时 使 用 worker， 或 者 在 使 用 第 三 方 模块 时 ， 根 
据 该 该 器 的 规格 合理 选择 prefork 或 worker， 这 是 一 个 应 该 遵循 的 准则 


10 在 worker 中 运行 mod_perl 时 ，Perl 将 通过 ithreads 生成 线程 。 由 于 Perl 的 线程 多 少 有 些 特 
殊 ， ad 的 情况 下 可 能 存在 一 些 规格 的 差异 ， 因 此 有 很 多 用 户 因为 讨厌 这 一 点 而 选择 
prefork 模式 。 


从 性 能 的 观点 来 看 多 进程 /多 线程 的 差异 


0 在 多 进程 和 多 线程 中 ， 后 者 更 轻 量 更 快 。 主 要 原因 有 以 下 
两 点 : 


@ 多 进程 使 用 多 个 独立 的 内 存 空间 ， 而 多 线程 只 使 用 共享 的 内 存 空 
间 ， 因 此 内 存 消耗 量 较 少 


@ 因为 多 线程 共享 内 存 空间 ， 所 以 线程 切换 的 成 本 低 于 多 进程 
在 Apache 中 ， 基 于 什么 因 系 来 决定 选择 哪 种 模式 呢 ? 


关于 @， 从 内 存 占用 量 方面 来 说 确实 使 用 多 线程 的 worker 更 胜 一 筹 。 
但 事实 上 即使 在 使 用 多 进程 的 情况 下 ， 由 于 内 存 空间 在 没有 更 新 时 是 被 

父子 进程 所 共享 的 《〈 即 写 时 复制 技术 ，Copy-on-Write) ， 因 此 性 能 上 并 
没有 显著 差异 。 关 于 写 时 复制 技术 后 面 会 有 详细 讲解 。 


@ 其 实 是 在 讲 上 下 文 切换 (Context Switch， 也 称 文本 切换 ) 的 成 本 差 
别 。 在 多 任务 操作 系统 中 ， 为 实现 并 发 处 理 ， 需 要 在 短 时 间 内 切换 处 
理 内 容 不 同 的 进程 /线程 其 ， 此 时 的 进程 /线程 的 转换 处 理 就 被 称 

为 “< 上下文 切 换 ”。 在 进行 上 下 文 切换 时 ， 由 于 多 线程 是 共享 内 存 空 间 
的 ， 因 此 可 以 跳 过 内 存 空 间 的 切换 处 理 。 由 于 没有 发 生 切 换 内 存 空间 的 
动作 ， 因 此 就 不 需要 改变 CPU 上 的 内 存 缓冲 〈 正 规 叫 法 是 TLBL ) ， 
这 对 性 能 的 提升 具有 很 显著 的 作用 。 


了 1 关于 多 任务 切换 的 详细 内 容 请 参考 4.1 节 。 


12 TLB CTranslation Lookaside Buffer, 转 址 旁 路 缓存 ， 也 被 称 为 页 表 缓 存 、 转 译 后 备 缓冲 器 ) 
大 鸭 了 类 高 将 内 存 的 虚拟 地 址 映射 到 物理 地 址 这 一 处 理 的 速度 的 缓存 ， 是 存在 于 CPU 内 部 的 

结构 。 一 旦 发 生 上 下 文 切换 ，TLB 就 会 被 刷新 〈Flash) ， 受 此 影响 若 TLB 缓存 失误 ， 则 损失 
的 性 能 成 本 会 比较 高 。 


基于 以 上 两 点 可 以 明白 如 下 内 容 : 


。 即使 将 prefork 变更 为 worker， 对 于 单位 客户 端的 啊 应 时 间 也 未 
必 会 变 短 


。 即使 将 prefork 变更 为 worker， 只 要 拥有 足够 的 内 存 ， 则 能 够 同 
时 操作 的 并 发 数 也 并 不 会 增加 


。 即使 将 prefork 变更 为 worker， 只 要 不 存在 海量 的 上 下 文 切换 
《没有 同时 并 发 的 大 量 访问 ) ， 则 改善 的 效果 并 不 大 


因此 也 请 大 家 认识 到 将 prefork 切换 为 worker 能 够 改善 性 能 的 情况 是 很 
有 限 的 。 
相反 ， 适 合 变更 为 worker 模式 的 情况 如 下 : 


。 可 用 内 存量 不 多 或 仅 有 少量 的 内 存 消 耗 时 。 在 这 种 情况 下 ， 比 进 
程 的 内 存 消耗 量 少 的 线程 的 优点 可 以 得 到 充分 地 发 挥 


。 在 上 下 文 的 切换 次 数 较 多 ， 需 要 减少 该 部 分 的 CPU 资源 占用 时 ， 
也 就 是 说 大 量 访 问 的 挤占 造成 CPU 使 用 率 变 高 四， 需要 降低 
CPU 使 用 率 时 。 与 进程 相 比 ， 线 程 间 的 上 下 文 切换 的 性 能 成 本 较 
低 ， 因 此 切换 到 该 模式 可 以 降低 CPU 的 负载 


13 上 下 文 切换 次 数 可 以 通过 sar -c 命令 来 查询 。 
一 个 客户 端 对 应 一 个 进程 /线程 
prefork 和 worker 的 共同 点 是 Apache 对 于 来 自 客 户 问 的 每 个 请 求 ， 都 会 


分 配 一 个 进程 或 线程 来 进行 处 理 。 也 就 是 说 ， 如 果 同 时 有 十 个 客户 端 发 
出 请 求 ， 就 会 分 配 十 个 进程 或 十 个 线程 来 进行 响应 4 。 


4 基于 此 模式 ， 在 Apache 运行 第 三 方 的 应 用 程序 时 ， 该 应 用 程序 的 开发 者 可 以 更 加 容易 地 进 
行 开发 工作 。 


能 够 同时 生成 多 少 进程 /线程 决定 了 Apache 的 处 理性 能 ， 因 此 需要 配 
置 一 个 最 佳 的 设 定 项 来 控制 进程 /线程 数 ， 这 也 可 以 说 是 Apache 优化 
的 关键 。 让 我 们 继续 详细 地 了解 一 下 吧 。 


4.2.4 httpd.conf 的 配置 


httpd.conf 的 配置 将 决定 Apache 的 性 能 ， 特 别 会 对 “能 够 同时 处 理 的 请 
求 数 ” 产 生 影响 ， 下 文 将 进行 详细 讲解 。 


Apache 的 安全 闪 MaxClients 


由 于 Web 服务 占 将 受理 来 自 数目 不 详 的 客户 端的 请 求 ， 因 此 需要 在 设 
计时 考量 到 : 无 论 什 么 时 候 遇 到 什么 程度 的 流量 ， 都 应 该 能 够 处 理 。 


在 此 需要 根据 负载 动态 控制 Apache 的 进程 / 线程 数 。 但 是 动态 控制 的 
结果 可 能 会 导致 生成 大 量 的 进程 /线程 ， 甚 至 会 占用 全 部 的 设备 资源 。 
因此 惑 需要 设 定 MaxClients 这 个 安全 准 ， 来 设 定 可 以 同时 连接 的 请 求 数 
的 上 限 值 。 知 没有 MaxClients， 当 大 量 请 求 同 时 涌 来 ， 超 过 该 系统 允许 
的 请 求 数 时 ， 将 会 导致 系统 内 存 耗 尽 ， 从 而 致使 设备 死机 ， 或 者 CPU 
耗 尽 变 得 无 法 啊 应 等 致命 故障 。 
当 请 求 过 多 时 ， 可 以 将 MaxClients 设 定 为 : 

。 将 不 能 处 理 完 的 请 求 安 排 在 等 候 队 列 中 等 待 一 段 时 间 

。 硝 等 待 队 列 淤 出 ， 对 该 请 求 返 回 错误 并 将 其 退回 到 客户 站 
以 上 策略 均 需 要 通过 Apache 的 安全 内 MaxClients 实现 ， 以 避免 系统 死 
机 等 最 坏事 态 的 发 生 。 


这 个 安全 并 MaxClients 的 上 限 值 是 静态 的 数值 ， 必 须根 据 设 备 资 源 进行 
手动 配置 。 调 整 该 数值 就 是 Apache 优化 的 关键 。 反 过 来 说 ， 其 他 项 目 
的 调节 对 性 能 并 没有 什么 太 大 的 影响 。 下 面 束 对 该 安全 | 阀 MaxClients 的 
数值 调整 进行 详细 叙述 。 
在 prefork 模式 的 情况 下 
在 prefork 模式 的 情况 下 ， 配 置 项 目 相对 简单 。 安 全 网 就 是 在 
ServerLimit 和 MaxClients 这 两 个 指令 中 设 定 的 参数 。ServerLimit 及 
MaxClients 决定 了 Apache 能 够 同时 生成 的 进程 数 的 上 限 值 。 这 两 个 参 
数 原本 的 意义 如 下 。 

。 ServerLimit : 服务 器 数量 ， 即 prefork 中 进程 数 的 上 限 

。 MaxClients : 能 同时 连接 的 客户 端 数 的 上 限 值 
但 这 对 使 用 一 个 进程 处 理 一 个 客户 端 请 求 的 prefork 来 说 ， 两 者 的 意义 


大 致 相同  。 要 想 提 高 进程 数 的 上 限 值 ， 可 以 对 ServerLimit 和 
MaxClients 进行 配置 。 一 般 情况 下 设 定 的 原则 是 不 能 让 MaxClients> 


ServerLimit。 


2 在 worker 模式 等 其 他 MPM 中 ， 两 者 的 区 别 具 有 意义 。 


ServerLimit 
MaxClients 


因此 可 以 像 上 面 这 样 先 配置 ServerLimit。 上 面 所 配置 的 最 大 进程 数 〈( 能 
够 同时 连接 的 客户 端的 数量 ) 为 50。 


除 此 之 外 ， 还 有 控制 进程 / 线程 数 的 MinSpareServers、 
MaxSpareServers、 StartServers 等 参数 ， 由 于 这 些 项 目 对 性 能 的 影响 并 
不 是 很 大 ， 因 此 在 这 里 就 不 讲解 了 。 


这 里 还 有 个 问题 ， 即 配置 该 ServerLimit、MaxClients 时 ， 具 体 将 数值 设 
置 为 多 少 才 好 呢 ? 当然 我 们 不 能 仅 凭 感觉 来 设 定 这 些 参 数 ， 而 要 通过 


。 服务 器 所 安装 的 物理 内 存 的 容量 
。 单位 进程 的 平均 内 存 消 耗 量 
这 两 点 进行 估算 ， 以 合理 配置 可 以 生成 多 少 进程 。 


第 一 点 通过 得 看 硬件 的 详细 说 明 即 可 得 知 ， 或 者 也 可 以 通过 free 等 命 
令 进行 查看 


但 第 二 点 ， 即 进程 占用 的 内 存 大 小 要 如 何 查 看 呢 ? 虽然 通过 ps 和 top 
也 能 确认 ， 但 是 这 里 还 是 从 proc 文件 系统 来 查看 吧 。 在 Linux 中 ， 通 
过 /proc/< 进 程 的 PID>/status 就 可 以 看 到 进程 的 内 存 使 用 量 详情 。 关 
于 这 些 项 目的 意义 ， 请 参考 内 核 源 代码 的 附属 文件 


(Documentation/filesystem/proc.txt) 。 


在 图 4.2.3 的 摘要 中 ，VmHWM 是 该 进程 实际 使 用 的 内 存 空间 的 大 小 。 
图 4.2.3 的 例子 是 和 mod_perl 模块 一 起 被 作为 AP 服务 器 使 用 的 Apache 
统计 ， 可 以 了 解 到 目前 所 使 用 的 物理 内 存 不 足 100MB。Vmpeak 和 
VmSize 是 虚拟 内 存 上 的 空间 ， 在 物理 内 存 上 所 对 应 的 空间 由 VmHWM 


指示 。 


% cat /proc/23812/status 

Name: httpd 

State: S (sleeping) 

< 中 间 省 略 > 

VmPeak: 342544 

VmSize: 341636 

VmLck : 0 

VmHWM: 99616 < 进程 实际 使 用 的 物理 内 存 区 域 的 大 小 
VmRSS: 97644 


VmData: 94572 
Vmstk : 84 
VmExe: 308 
VmLib : 19072 
VmPTE : 668 
Threads : 

< 以 下 省 略 > 


图 4.2.3 ”进程 的 内 存 使 用 量 等 摘要 


从 VmHWM 的 数值 可 以 得 知 httpd 各 进程 的 VmHWM 平均 值 。 例 如 图 
4.2.3 的 例子 就 表示 : 


。 安装 了 4GB 的 内 存 容量 

。 每 个 httpd 进程 的 内 存 使 用 量 为 100MB 

。 操作 系统 的 保留 内 存 为 512MB 

。4GB 一 512MB = 3.5GB 3,500/100 一 35 
按照 以 上 逻辑 ， 可 以 将 MaxClients 设置 为 35。 
但 是 ， 仅 这 些 判 断 材料 还 不 够 。Linux 为 了 节约 物理 内 存 ， 在 父 进程 和 
子 进 程 之 间 还 共享 了 一 部 分 内 存 。 考 虑 这 个 共享 部 分 的 内 存 ， 还 可 以 配 
置 更 大 的 数值 。 
父子 进程 共享 内 存 的 写 时 复制 技术 


所 有 用 户 进 程 都 是 从 其 他 某 个 进程 fork 生成 的 ， 即 所 有 进程 都 存在 有 父 
进程 。 在 prefork 模式 的 Apache 下 ， 首 先 局 动 某 个 httpd 父 进 程 ， 然 后 
该 进程 再 生成 多 个 httpd 子 进 程 。 


在 使 用 fork 生成 进程 的 情况 下 ， 父 子 进程 在 不 同 的 内 存 空 间 运 作 ， 彼 此 
互 不 干扰 。 为 了 实现 独立 的 内 存 空间 ， 可 以 使 用 fork 从 父 进程 复制 整个 
内 存 的 内 容 到 子 进程 ， 但 是 这 个 复制 处 理 的 成 本 非常 高 。 


Linux 操作 系统 中 ， 在 进行 fork 操作 后 ， 被 映射 到 虚拟 内 存 空间 的 物理 
内 存 空间 在 不 被 复制 的 情况 下 由 父子 进程 共享 。 该 共 吾 空间 是 通过 分 别 
准备 父子 进程 所 需 的 虚拟 内 存 空间 ， 并 从 各 目的 虚拟 内 存 空间 映射 同样 
的 物理 内 存 空间 来 实现 的 (图 4.2.4) 。 若 父 进程 或 子 进程 对 虚拟 内 存 
进行 写 入 ， 那 么 进行 该 写 入 的 空间 就 不 能 再 继续 被 共享 ， 这 时 父子 进程 
才 分 别 拥 有 了 映射 到 该 区 域 的 实际 的 物理 空间 。 


父 进程 的 虚拟 空间 物理 内 存 父 进程 物理 内 存 
共享 | 
| 仅 从 父 进 程 可 看 | 

物理 页 面 
发 生 内 存 写 入 操作 
更 新 的 页 面 
子 进程 的 虚拟 空间 子 进程 
fork() 之 后 父子 进程 映射 同一 仅 限 已 更 新 的 地 方 映射 独立 的 
物理 内 存 空间 内 存 空 间 


图 4.2.4 虚拟 内 存 的 写 时 复制 
有 反 过 来 说 ， 没 有 进行 写 入 的 内 存 空间 能 永远 被 共 圣 ， 因 此 就 可 以 避 开 内 
存 上 的 页 面 重复 以 更 加 有 效 地 利用 内 存 。 


该 结构 被 称 为 “ 写 时 复制 技术 ”(Copy on Write) ， 即 “在 写 入 时 才 进 行 
复制 ”的 意思 。 也 可 以 理解 为 fork 时 内 存 复制 的 延迟 处 理 。 


碍 看 写 时 复制 时 共 孚 的 内 存 大 小 


要 配置 MaxClients， 还 需要 考虑 在 实际 使 用 的 内 存 区 域 中 ， 父 子 进程 共 
享 的 物理 内 存 空 间 的 大 小 。 共 享 内 存 空间 可 以 通过 /proc/< 进 程 的 
PID>/smaps 的 数据 查看 ， 但 在 数据 量 很 多 时 ， 调 查 将 变 得 比较 困难 。 
在 此 制作 了 调查 共享 内 存 大 小 的 Perl 脚本 (代码 清单 4.2.1) 了 。 提 交 
动态 参数 一 -进程 的 ID， 就 可 以 得 看 该 进程 的 共享 内 存 的 大 小 。 图 
4.2.5 是 与 pgrep 配合 使 用 所 输出 的 数据 。 


16 在 Linux 中 执行 该 Perl 脚本 需要 另外 安装 Smaps。 


代码 清单 4.2.1 shared_memory_size.pl 


#!/usr/bin/env perl 
use strict; 

use warnings; 

use Linux: :Smaps; 


@ARGV or die "usage: $0 [pid ...]”; 


print "PID\tRSS\tSHARED\n"; 


for my $pid (@ARGV) { 
my $map = Linux::Smaps->new($pid); 
unless ($map) { 
warn $1; 
next; 


} 


printf 
"x%d\t%d\t%d (%d%%)\n", 
$pid, 
$map->rss, 
$map->shared dirty + $map->shared clean, 
int((($map->shared dirty + $map->shared clean) / $map->rss) * 160) 


% shared memory_size.pl “pgrep httpd- 


SHARED 


24867 69452 ”66632 (95%) 
24869 76996 55216 (71%) 
24816 86812 54292 (67%) 
24811 77188 54236 (76%) 
24812 79268 5434@ (68%) 
24813 76668 55492 (72%) 
< 以 下 省 略 > 


图 4.2.5 运行 实例 

显示 的 内 存 大 小 的 单位 是 KB (Kilobyte) 。RSS 是 整个 进程 分 配 的 内 存 
大 小 ，SHARED 是 其 中 父子 进程 共享 的 空间 的 大 小 。 这 里 的 70% 左右 
的 数字 是 父子 进程 所 共享 的 内 存 空 间 的 比例 。 

另外 在 写 时 复制 技术 机 制 中 ， 随 着 时 间 的 流逝 ， 该 共享 的 比例 会 不 断 下 
降 。 启 动 httpd 之 后 ， 所 输出 的 共享 比率 的 数字 自然 会 升 高 ， 因 此 该 数 
值 并 没有 很 大 的 参考 价值 。MaxClients 的 参数 的 设 定 原则 是 能 让 系统 稳 
定 运行 ， 不 发 生 大 的 波动 。 因 此 可 以 试 着 发 出 一 定数 量 的 请 求 ， 采 用 系 
统 相 对 稳定 时 的 数值 即 可 。 然 后 考虑 之 前 估算 过 程 中 父子 进程 所 共享 的 
内 存 大 小 ， 就 会 得 出 以 下 结论 : 

安装 了 4GB 内 存 的 内 存 容量 

每 个 http 进程 的 内 存 使 用 量 为 100MB 

其 中 70% 被 父子 进程 共享 ， 每 个 子 进程 的 内 存 使 用 量 为 30MB 

操作 系统 的 保留 内 存 为 512MB 

4GB 一 512MB = 3.5GB -3,500/30 王 116.66 


因为 平均 内 存 使 用 量 和 共享 率 只 是 大 致 计 算出 来 的 ， 所 以 实际 上 配置 为 
100 左右 就 行 了 。 


MaxRequestsPerChild 


在 这 里 做 一 些 补充 。 基 于 写 时 复制 的 内 存 共 圣 ， 共 享 紊 会 随 着 时 间 的 尝 

逝 而 降低 。 这 样 的 话 ， 在 Web 服务 器 这 样 持续 运作 的 软件 中 ， 最 终 大 

部 分 的 空间 都 将 被 持续 挤占 而 不 能 被 共享 。 

Apache 中 会 定期 结束 子 进程 并 建立 新 的 子 进程 ， 基 于 该 方法 可 以 避免 

上 述 事 态 的 发 生 。 和 鉴于 新 建立 的 子 进 程 是 通过 父 进 程 的 fork 建立 的 ， 因 

0 
Ee 


在 此 可 如 下 配置 MaxRequestsPerChild 指令 的 参数 : 


MaxRequestsPerChild 1624 


这 里 设 定 了 每 个 进程 将 会 处 理 1,024 个 请 求 ， 该 进程 处 理 完 第 1,024 次 
的 请 求 之 后 就 会 自动 结束 ， 父 进程 会 在 此 建立 新 的 子 进程 。 

通过 合理 配置 MaxReqeustsPerChild 的 参数 ， 还 可 以 避免 使 用 mod_perl 
及 mod_php 模块 运行 的 应 用 程序 引起 内 存 泄漏 ， 这 是 发 生 内 存 黑洞 持 

续 消 耗 内 存 时 的 有 效应 急 措施 。 


在 会 接收 到 大 量 请 求 的 大 型 服务 器 中 ， 如 果 MaxRequestsPerChild 的 数 
值 太 小 ， 束 会 频繁 重复 进行 进程 的 建立 和 结束 ， 因 此 可 能 需要 适当 增加 
该 数值 的 大 小 。 相 反 ， 在 请 求 不 多 的 服务 器 上 ， 即 使 将 
MaxRequestsPerChild 的 数值 设置 得 比较 小 ， 此 负担 也 几乎 不 存在 。 可 
以 在 综合 考虑 CPU 负载 状况 及 进程 所 占用 的 内 存 空 间 大 小 等 基础 上 ， 
设置 出 恰当 的 数值 。 
在 worker 模式 的 情况 下 
worker 是 多 进程 和 多 线程 的 混合 型 模式 。 
。 在 一 个 进程 中 生成 多 个 线程 ， 一 个 客户 端 交 由 一 个 线程 进行 处 理 
。 生成 多 个 进程 
具体 行为 如 上 。 因 此 ， 进 程 数 x 每 个 进程 的 线程 数 这 一 数量 的 线程 将 


并 发 运作 。 进 程 的 部 分 使 用 与 prefork 类 似 的 方法 进行 优化 。 而 在 对 线 
时 部 分 进行 优化 时 ， 则 需要 坚持 以 下 原则 : 


。 线程 与 进程 不 同 ， 线 程 间 共享 全 部 的 内 存 空 间 。 不 需要 考虑 像 写 
时 复制 那样 的 情况 


。 每 一 个 线程 需要 最 大 不 超过 8,192KB 的 内 存 作 为 栈 空间 卫 


1 这 是 Apache 的 规格 。 在 Linux 环境 中 ， 线 程 的 栈 大 小 由 系统 指定 。 此 处 的 8,192KB 取决 于 
系统 ， 有 具体 可 以 通过 ulimit -s 命令 进行 确认 。 


在 Worker 模式 的 情况 下 ， 除 ServerLimit、MaxClients 的 参数 之 外 ， 还 
需要 调整 ThreadLimit 和 ThreadsPerChild。worker 模式 下 的 配置 需要 了 
解 : 


。 MaxClients : 可 以 在 同一 时 间 连 接 的 客户 端 数 ， 也 就 是 进程 数 xx 
线程 数 

e。 ServerLimit : 最 大 进程 数 

。 ThreadLimit : 每 个 进程 的 最 大 线程 数 


ThreadsPerChild : 每 个 进程 的 最 大 线程 数 〈 与 ThreadLimit 大 致 
相同 ) 


MaxClients 是 系统 能 够 容许 的 客户 端 数量 ， 通 过 与 其 他 参数 配合 设 定 ， 
可 以 把 探 进程 和 线程 同时 处 理 的 客户 端 数量 。 确 定 MaxClients 后 再 确定 
ThreadsPerChild 后 ， 就 能 进一步 确定 所 需 的 进程 数 了 。 例 如 在 
MaxClients 为 4096，ThreadsPerChild 为 128 时 ， 


e。 MaxClients 4096/ThreadsPerChild 128 二 32 进程 


因此 ， 需 要 经 和 常 调整 以 满足 ServerLimit > 
MaxClients/ThreadsPerChild 这 个 关系 。 当 关系 不 满足 时 ， 这 一 情 
况 将 会 被 记录 在 错误 日 志 中 。 把 以 上 各 项 加 以 配置 ， 即 : 


ServerLimit 32 
ThreadLimit 64 
MaxClients 4696 


ThreadsPerChild 64 


至 于 将 各 参数 设 定 为 多 少 ， 基 本 上 和 prefork 的 情况 一 样 ， 都 要 在 综合 
内 存 容量 及 每 个 线程 的 内 存 消 耗 量 的 基础 上 进行 计 


各 要 得 看 实际 在 系统 上 运行 了 多 少 条 线程 ， 可 以 在 ps 命令 上 使 用 -L 选 
项 。 正 如 在 4.1 节 中 讲解 的 那样 ， 添 加 -L 参数 可 以 输出 NPTL 的 线程 ， 
只 要 数 数 具 体 有 多 少 条 就 OK 了 。 


在 系统 超载 的 情况 下 ， 改 变 MaxClients 前 需要 了 解 ..….. 
之 前 提 到 了 “问题 只 是 在 web 服务 器 上 无 法 啊 应 的 问题 表现 得 很 明显 ， 


但 根本 原因 未 必 是 Web 服务器”。 其 实 表面 上 的 问题 就 是 MaxClients 到 
达 了 了 上限。 错误 日 志 中 会 有 如 下 记录 : 


[Wed Sep 65 17:36:43 2667] [error] server reached MaxClients setting, consi 


在 达到 MaxClients 而 不 能 再 生成 进程 、 线 程 这 样 的 状态 下 ， 只 不 过 会 警 
告发 生 了 某 些 问题 ”。 虽 然 也 有 可 能 是 连接 数 过 多 造成 MaxClients 达到 
上 限 ， 但 也 有 可 能 存在 其 他 的 原因 。 


例如 ， 在 将 Apache 作为 AP 服务 器 使 用 时 ， 假 设 其 上 运行 的 应 用 程序 
要 连接 到 数据 库 服 务 器 (图 4.2.6) 。 


@ 因为 其 他 客户 端 耗 尽 了 
Web 服 务 器 上 的 进程 ， 
所 以 客户 端 3 不 能 进行 
连接 串 在 日 志 上 记录 
MaxClients 


@ 数据 库 超载 造成 @@ 数据 库 超 载 造 成 阻塞 。 不 能 向 
阻塞 。 不 能 向 客 客户 端 2 返回 应 答 
户 端 1 返回 应 答 上 


尽管 实际 原因 是 数据 库 超 载 ， 但 表现 出 来 的 问题 却 是 
无 法 连接 Web 服务 器 


图 4.2.6 原因 为 数据 库 超载 的 情况 示例 
。 如 果 数 据 库 超载 ， 应 用 程序 将 阻 礁 等 待 来自 数 据 库 的 应 答 
。 结果 httpd 进程 /线程 变 为 被 阻 暑 的 状态 


。 因为 被 阻 到 的 进程 /线程 不 能 处 理 来 自 其 他 客户 端的 请 求 ， 于 是 
Apache 寻找 空闲 进程 /线程 


。 如 采 没 有 空闲 进程 /线程 ， 则 生成 新 的 进程 /线程 


。 如 有 条 数据 库 仍 旧 超 载 ， 新 生成 的 进程 /线程 也 会 在 处 理 随后 的 客 
户 端的 请 求 的 过 程 中 被 阻 守 


。 最 终 MaxClients 到 达 上 限 ， 无 法 生成 新 的 进程 /线程 


。 将 该 事件 记载 到 错误 日 志 中 


在 这 种 情况 下 ， 如 何 调整 Apache 配置 都 没有 意义 。 即 使 增加 
MaxClients， 未 来 在 客户 端 发 出 请 求 时 也 会 被 阻塞 ， 状 况 依然 得 不 到 改 
善 。 所 以 还 需要 回 到 根本 原因 ， 解 决 数 据 库 超载 的 问题 。 


4.2.5 Keep-Alive 


除 MPM 模块 的 参数 以 外 还 有 影响 性 能 的 参数 ， 比 如 “Keep-Alive” 的 配 
置 。Keep-Alive 是 在 处 理 完 来 自 特定 客户 端的 请 求 之 后 暂时 保持 连接 ， 
以 备 处 理 来 自 相 同 客户 端的 其 他 文件 的 请 求 的 功能 。 合 理 设 置 后 ， 客 户 
端 无 需 重复 连接 / 断 开 ， 仅 需 一 次 连接 就 能 下 载 多 个 文件 ， 客 户 端 / 服 
务 器 并 发 处 理 的 效率 将 会 显著 提高 。 


男 一 方面 ， 根 据 情况 的 不 同 ，Keep-Alive 也 会 导致 系 统 发 生 瓶 开 。 上 有 具体 
请 参考 2.1 节 中 有 关 反 回 代 理 的 讲解 。 


4.2.6 Apache 以 外 的 选择 


虽然 本 节 的 中 心 是 讲解 Apache， 但 是 市 面 上 有 很 多 开源 且 目 由 的 Web 
服务 器 。 虽 然 Apache 也 是 广泛 使 用 的 Web 服务器， 但 是 并 不 意味 着 必 
须 使 用 Apache。 


Apache 的 优点 之 一 就 是 内 部 完全 模块 化 的 通用 构造 ， 具 备 高 扩展 性 。 

因此 ， 包 含 第 三 方 模块 在 内 的 扩展 模块 的 开发 非常 繁盛 。 男 外 还 能 自己 

创建 新 的 模块 ， 自 定义 Apache 的 运行 。 将 Apache 作为 超越 Web 服务 

ee 比 Apache 更 能 适用 于 多 种 场景 的 服务 器 并 不 
妃 。 


另 一 方面 ，Apache 的 性 能 怎么 样 呢 ? Apache 目前 采用 多 进程 /多 线程 
模式 。 除 此 之 外 的 网 络 服务 器 的 代表 模式 还 有 单 进程 :事件 驱动 (Single 
Process Event Driven，SPED ) 模式 。 在 SPED 模式 的 服务 器 上 ， 不 是 
通过 多 个 运行 单位 来 处 理 多 个 连接 ， 而 是 利用 系统 的 功能 ， 让 单一 进程 
监控 多 个 网 络 连 接 的 输入 输出 事件 ， 并 结合 输入 输出 事件 将 处 理 快速 切 
换 ， 以 实现 高 效 的 并 发 处 理 。 


单纯 从 多 线程 和 SPED 的 结构 来 看 ， 并 没有 好 坏 之 分 。 男 一 方面 ， 以 安 
装 的 广泛 度 来 讲 ，Apache 的 确 是 最 普及 的 Web 服务 器 。 但 在 一 个 请 求 


周期 内 ， 处 理 请 求 所 需 的 CPU 计算 量 、 内 存 消耗 量 较 大 ， 而 有 多 少 个 
进程 /线程 ， 束 会 相应 地 消耗 相当 大 程度 的 资源 ， 这 是 它 的 缺点 。 


lighttpd 


最 近 开 源 Web 服务 器 中 比较 受 欢 迎 的 是 lighttpd 18 。lighttpd 具备 以 下 
寺 点 : 


18 URL http://www.lighttpd.net/ 


。 采用 SPED， 通 过 少量 内 存 并 发 处 理 大 量 访问 ， 处 理 速度 让 人 满 


-2 
忌 、 


虽然 相 较 于 Apache，lighttpd 的 通用 性 较 送 ， 但 是 因为 其 单位 请 
求 所 需 的 计算 量 少 ， 可 以 降低 CPU 负载 


单位 进程 的 内 存 消耗 量 远 远 小 于 Apache 


涵盖 了 相当 于 Apache 的 核心 模块 、mod_rewrite 和 mod_proxy 模 
块 的 基本 功能 


。 ## 支 持 FastCGI， 可 以 优化 用 Perl 及 PHP、Ruby 所 编写 的 Web 应 
用 程序 ， 可 以 被 作为 AP 服务 器 使 用 


因此 lighttpd 在 大 规模 并 发 环境 中 的 运行 效果 也 很 好 。Hatena 网 站 现在 
己 经 将 一 部 分 的 Apache worker 更 换 为 了 lighttpd。 


比较 lighttpd 和 Apache， 最 显著 的 差异 是 内 存 的 消耗 量 。lighttpd 无 论 

有 多 少 连 接 ， 都 能 用 一 到 几 个 进程 完成 所 有 处 理 1 。 因 为 lighttpd 是 根 

削 数 来 增 减 进程 / 线程 数量 的 ， 这 是 lighttpd 与 Apache 决定 性 的 
异 


19 使 用 select(2)/poll(2) 和 epoll 等 的 文件 描述 符 监控 系统 调用 ， 实 现 多 网 络 1/O 的 并 发 处 理 。 


lighttpd 适用 于 传送 大 量 静 态 文 件 。 在 需要 将 大 量 文件 返回 到 大 量 客户 
端 时 ， 也 可 以 以 最 小 限度 的 资源 消耗 去 完成 。 


当然 lighttpd 也 可 以 传送 动态 的 网 页 内 容 。 由 于 lighttpd 的 使 用 相当 简 


单 ， 因 此 有 很 多 基于 lighttpd+FastCGI 环境 ， 来 高 速 运行 用 脚本 语言 开 
发 的 Web 应 用 程序 的 事例 。 但 是 ， 在 用 lighttpd 传送 动态 内 容 时 ， 
Apache+mod_perl (mod_php 等 ) 与 lighttpd+FastCGI 的 组 合并 没有 显著 
的 性 能 差异 他。 


20 由 于 Apache 具备 丰富 的 API， 可 以 用 来 自 定义 应 用 程序 ， 因 此 笔者 经 常 使 用 Apache。 


虽然 这 里 没有 对 lighttpd 进行 详细 讲解 ， 但 想 以 更 少 的 资源 处 理 大 量 客 
户 端的 连接 时 ， 可 以 考虑 使 用 lighttpd。 

4.3 MySQL 的 调 优 诀 ? 

4.3.1 MySQL 的 调 优 诀 容 


当 数 据 库 服务 器 要 求 更 高 的 性 能 该 怎么 办 呢 ? 单刀 直入 ， 用 一 句 话 说 就 
是 “如 何 快 速 存 取 数 据 ”。 


那么 数据 库 服务 器 的 性 能 调 优 ， 也 就 是 “ 想 要 以 更 短 的 时 间 存 取 数 据 ”， 

需要 具体 考虑 什么 策略 呢 ? 这 根据 调 优 的 视角 可 以 分 为 几 类 ， 以 下 首先 
基于 调 优 的 视角 进行 简单 的 整理 。 

基于 调 优 视角 的 分 类 

首先 ， 可 以 考虑 从 以 下 几 个 视角 进行 分 类 : 

1 服务 器 方面 

2 服务 器 之 外 的 其 他 方面 

3 周边 系统 方面 

1 服务 器 方面 

第 一 个 是 “服务 器 方面 的 调 优 ?>。 说 到 服务 器 方面 的 调 优 ， 首 先 需 要 了 

解 “mysqld 的 参数 优化 ”。 特 别 是 内 存 关 联 的 参数 以 及 磁盘 IO 关联 的 参 
数 是 调 优 的 关键 。 

除 mysqld 的 参数 以 外 ， 还 包括 系统 方面 的 优化 ， 例 如 : 


。 对 人 磁盘 IO 关联 的 内 核 参数 进行 调整 
。 合理 利用 文件 系统 及 mount 挂 载 ) 命令 的 选项 等 
本 市 中 也 将 其 归 类 为 服务 器 方面 的 优化 。 
参数 以 外 的 其 他 方面 的 优化 ， 还 有 “分 区 技术 ”(Partitioning) 。 如 果 数 
据 规模 变 大 ， 数 据 大 小 和 访问 量 增加 ， 仪 使 用 一 台数 据 库 服务 器 通常 会 
过 什 个 全: 
于 是 ， 在 此 以 表 为 单位 分 割 数据 库 服 务 器 ， 或 者 将 表格 数据 以 主键 
(Primary Key) 等 为 单位 切 分 到 数据 库 服务 器 上 。 据 此 就 可 以 将 数据 切 
割 为 较 小 的 单位 以 便 轻 松 缓存， 通过 分 流 访 问 还 可 以 降低 单 台 服务 器 的 
负载 。 另 一 方面 ， 由 于 需要 在 被 分 割 的 数据 库 服 务 器 集群 里 得 找 出 相应 
的 数据 以 供 处 理 ， 以 及 在 SQL 语句 层面 天 系 表 将 不 能 被 关联 ， 因 此 在 
应 用 程序 方面 的 负载 会 有 所 增加 。 
2 服务 器 之 外 的 其 他 方面 
第 二 点 是 除 服 务 器 之 外 的 其 他 方面 的 优化 。 具 体 指 如 下 事项 : 
。 表 的 设计 
> 创建 合适 的 索引 
> 根据 需要 可 能 会 进行 非 标准 化 处 理 
。 SQL 的 优化 
> 很 好 地 使 用 索引 
-> 调整 表 关 联 的 顺序 、 方 法 
特别 是 SQL 的 优化 ， 由 于 部 分 执行 时 间 较 长 的 语句 可 以 通过 慢 查 询 记 
录 (log-slow-queries) 找 出 ， 再 通过 MySQL 的 EXPLAIN 语句 及 相关 
工具 弄 清 其 原因 ， 所 以 优化 过 程 还 是 比较 容易 的 。 
3 周边 系统 


最 后 是 “周边 系统 的 调 优 ?。 首 先 什么 是 周边 系统 的 调 优 呢 ? 在 文章 的 开 
头 提 到 了 调 优 的 目标 是 “以 更 短 的 时 间 存 取 数 据 ”。 需 要 注意 的 是 在 此 是 
以 访问 数据 库 服 务 咒 为 视点 的 ， 知 访问 周边 系统 存 取 数据 的 速度 比 访问 
数据 库 服务 器 更 快 ， 则 不 需要 特意 去 访问 数据 库 服 务 嚣 。 


举 个 具体 的 例子 ， 在 访问 数据 的 客户 端 和 数据 库 服务 器 之 间 增 加 
memcached 等 缓存 服务 器 ， 这 样 就 可 以 通过 访问 缓存 服务 器 来 调用 数 
据 ， 而 不 用 去 访问 数据 库 服务 器 了 。 


说 到 RDBMS 的 优化 ， 许 多 情况 下 往往 只 会 想到 SQL 语句 和 服务 器 参 
数 的 优化 。 但 如 果 将 这 些 作为 “输入 输出 数据 的 一 个 系统 "， 将 客 尸 端 和 
数据 库 服务 器 看 作 这 个 系统 的 构成 要 系 ， 那 么 束 可 以 考虑 通过 增设 缓存 
服务 器 来 优化 该 系统 的 性 能 ， 而 并 非 改 动 具体 的 参数 。 大 家 一 定 要 具备 
这 种 宏观 的 视角 。 


本 章 接 下 来 要 处 理 的 内 容 

截至 目前 ， 我 们 将 优化 的 视角 分 为 了 三 类 并 分 别 进 行 了 讲解 ， 下 一 阶段 
将 简 述 实际 的 调 优 工作 ， 即 发 现 瓶 锯 采取 各 种 策略 消除 诅 贷 。 

瓶 儿 的 原因 潜藏 在 各 个 地 方 。 因 此 瓶 锯 的 发 现 ， 并 不 是 单纯 的 “发 现 慢 
的 SQL 语句 就 行 了 ”， 最 好 先 以 上 述 三 个 视角 进行 宏观 的 监控 。 

虽然 这 么 说 ， 但 由 于 瓶颈 的 产生 多 起 因 于 条 件 及 RDBMS 的 用 法 问题 ， 
存在 各 种 不 同 的 情况 ， 不 能 具体 断定 “就 是 东 处 存在 问题 "。 


另外 ， 在 对 数据 库 和 表 进 行 分 区 以 及 引入 缓存 服务 器 之 前 ， 需 要 优先 研 
完 一 下 SQL 语句 的 结构 以 及 进行 参数 的 优化 ， 以 最 大 可 能 地 发 挥 数据 
库 服务 占 的 性 能 ， 如 果 这 样 还 不 能 解决 问题 ， 其 后 才 应 该 考虑 进行 分 区 
或 引入 缓存 服务 器 。 


在 本 市 之 后 ， 我 们 将 继续 把 焦点 放 在 服务 右 方 面 的 优化 上 ， 对 MySQL 
服务 器 (mysqld) 的 参数 调节 进行 深入 讲解 。 


本 章 中 所 讲述 的 MySQL 的 版 本 是 5.0.45。 
4.3.2 内存 相关 的 参数 优化 


在 有 关 MySQL 服务 器 的 优化 中 ， 十 分 重要 的 是 内 存 〈 绥 冲 ) 相关 的 参 
数 ， 下 面 介 绍 以 下 两 点 : 


。 优化 的 要 点 


。 由 于 这 里 的 数据 库 服 务 器 是 在 内 存 为 4GB 的 情况 下 进行 相应 的 配 
置 设 定 的 ， 因 此 具体 数据 仅 供 参 考 


缓冲 的 种 类 .…... 优 化 时 的 注意 事项 @ 


首先 需要 注意 的 地 方 是 ，MySQL 中 为 了 提高 性 能 开辟 了 暂时 储存 数据 
的 内 存 空间 ， 通 第 说 称 为 缓冲 ， 绥 冲 有 以 下 两 个 类 型 : 


。 全 局 缓冲 (Global Buffer) 


。 线程 绥 冲 “(ThreadBuffer) 


所 谓 全 局 缓冲 ， 是 mysqld 内 部 的 唯一 一 个 缓冲 。 相 应 的 ， 线 程 缓冲 则 
古 针 对 每 个 线程 (连接 ) ， 都 确保 一 个 缓冲 。 


优化 参数 时 ， 需 要 认识 到 全 局 缓冲 和 线程 缓冲 的 差异 。 这 是 因为 ， 如 果 
给 线程 缓冲 分 配 过 多 的 内 存 ， 那 么 一 旦 连接 增加 ， 内 存 很 快 就 会 不 足 。 


不 能 分 配 太 多 优化 时 的 注意 事项 多 


给 缓冲 分 配 的 内 存 越 大 ， 性 能 束 越 高 。 话 虽 如 此 ， 如 果 分 配 的 数值 超过 
0 
氏 。 


比 起 在 MySQL 层面 进行 参数 优化 ， 在 某 些 情况 下 ， 通 过 使 用 MyISAM 
的 数据 引擎 ， 将 数据 库 文 件 放 到 系统 的 磁盘 缓冲 上 ， 这 样 更 能 提高 
MySQL 表 的 性 能 。 

内 存 的 相关 参数 

内 存 的 相关 参数 如 表 4.3.1 所 示 。 


表 4.3.1 内 存 相 关 的 参数 


| 


途 innoDB 缓 冲 区 ， 用 来 存放 数据 和 索引 
受 冲 类 型 全 局 缓冲 ”参考 值 512MB (一 般 设置 为 机 器 内 存 的 50%-80%) 
为 是 全 局 缓冲 ， 所 以 推荐 分 配 得 宽裕 一 些 


途 innoDB 内 存 池 ， 存放 车 各 种 内 部 使用 的 到 沁 
过问 型 全 局 缓冲 ”参考 值 20MB 
没有 大 量 分 配 的 必要 。 不 足 时 会 通过 错误 日 志 发 日 曾 加 也 没有 问题 


innodb_log_buffer_size 


j 途 InnoDB 日 志 绥 冲 区 
受 冲 类 型 全 局 缓冲 ”参考 值 16MB 

基 是 8MB， 最 多 为 64MB， 不 需要 太 大 。 绥 冲 Buff 是 每 当 数 据 库 事务 被 提交 
CCommit) 时 进行 的 ， 几 乎 每 秒 都 会 发 生 缓存 到 磁盘 的 动作 ， 因 此 建议 将 所 需 的 其 
他 参数 分 配 得 大 一 些 


半途 InnoDB 日 志文 件 ， 存 储 在 人 磁盘 上 。 昌林 它 趟 是 内 存 | 但 却 是 重要 以 
缓冲 类 型 --- 128MB 
数值 越 大 性 能 越 高 。 详 情 请 参照 正文 


途 被 用 于 ORDER BY 和 GROUP BY 的 内 存 空间 


名 类 型 线 和 级 参考 值 2MB 
由 于 是 线程 缓冲 ， 因 此 要 注意 过 度 增加 会 导致 内 存 不 足 。 笔 者 建议 设 为 2MB 或 4MB 


用 途 在 排序 后 谈 取 结果 数据 时 使 用 的 组 溃 区 。 因为 本 证 7O 会 有 所 减少 ， 所 以 可 以 提 
高 ORDER BY 的 性 能 

绥 冲 类 型 线程 缓冲 ”参考 值 1MB 
因为 这 个 也 是 线程 缓冲 ， 所 以 也 需要 注意 不 要 分 配 过 多 。 建议 设 为 512KB 一 
2MB 


join_buffer_size 


途 不 使 用 索引 的 表 关 联 时 使 用 的 内 存 空间 

缓冲 类 型 线程 缓冲 ”参考 值 56KB 

线程 缓冲 。 由 于 仅 在 没有 索引 时 才 进 行 关 联 操作 ， 因 此 从 性 能 提高 的 观点 上 对 该 关 
联 表 的 期 望 不 大 ， 所 以 该 参数 不 需要 很 大 


read_buffer_size 


途 对 数据 表 顺 序 扫描 的 缓冲 大 小 
组 冲 关 开 线程 缓冲 “参考 值 1MB 
如 果 这 里 也 考虑 性 能 ， 就 应 该 使 用 类 似 索引 的 查询 ， 因 此 不 需要 那么 大 的 空间 


key_buffer_size 


用 途 缓存 MYISAM 的 键 〈 索 引 ) 的 内 存 空间 
缓冲 类 型 全 局 缓冲 参考 值 256MB 
因为 是 全 局 缓冲 ， 所 以 为 了 提高 性 能 可 以 分 配 多 一 些 。 如 果 不 〈 太 ) 使 用 


MyISAM, 可 以 将 该 值 笑 置 得 小 一 些 ， 以 将 内 存 分 配给 他 参数 


myisam_sort_buffer_size 


用 途 MyISAM 中 以 下 情况 的 索引 排序 时 所 使 用 的 缓冲 空间 


。REPAIR TABLE “。CREATE INDEX 。ALTIER INDEX 
缓冲 类 型 线程 缓冲 ”参考 值 1MB 
因为 通常 在 语句 《DML) 中 不 大 使 用 ， 所 以 不 需要 那么 多 


下 面 对 表 4.3.1 进行 补充 说 明 。 首 先 ， 关 于 innodb_log file_size，mysqld 
在 innodb_log_file 存 满 时 ， 仅 将 内 存 上 更 新 的 innodb_buffer_pool 部 分 
写 入 磁盘 上 的 InnoDB 数据 文件 。 因 此 ， 如 果 只 增加 
innodb_buffer_pool_size， 而 个 同时 调整 多 这 个 innodb_log_file_size 的 话 ， 
innodb_log_file_size 马上 就 会 洪 出 ， 进 而 就 不 得 不 频繁 地 进行 mnoDB 
数据 文件 的 写 入 处 理 ， 最 终 就 会 导 到 性 能 下 降 - 


innodb log file_size 的 数值 要 设置 为 1MB 以 上 ，32bit a 情况 下 
必须 设置 为 4GB 以 下 ， 具 体 在 MySQL AB 文档 中 有 详细 描述 


这 里 还 有 一 个 上 限 。 虽 然 innodb_ log file 只 设置 
innodb_log_files_in_group 的 数量 (默认 2) ， 但 要 确保 
innodb_ log file_sizexinnodb log files_in_group 不 超过 
innodb_buffer_ pool_size。 


综 上 ， 可 以 得 出 如 下 结论 : 


1MB = innodb log file size < MAX innodb log file size < 
4GB 


ijnnodb_ buffer pool size 
MAX_innodb log file size = 
innodb log files in group 


其 他 必须 注意 的 是 ，innodb_log_file_size 的 值 越 大 ，InnoDB 的 骨 江 恢复 
所 需 的 时 间 就 越 长 。 


其 次 ， 这 里 也 对 表 4.3.1 中 的 key_buffer_size 稍 作 补 充 说 明 。 关 于 Key 
Buffer 的 命中 率 ， 可 以 使 用 SHOW STATUS 的 数值 ， 用 下 面 的 公式 算出 : 


Key Buffer 的 命中 率 = 166- (key_reads/key_read_ requestsx1060) 


4.3.3 ”内 存 相 关 的 检查 工具 .………. mymemcheck 


最 后 介绍 一 下 笔者 正在 使 用 的 自制 工具 mymemcheck。mymemcheck 可 
以 基于 my.cnf 或 者 SHON VARIABLES 的 结果 ， 进 行 以 下 三 个 方面 的 检 


。 至 少 所 需要 的 物理 内 存 大 小 
。IA-32 Linux 中 堆 的 大 小 范围 


。 innodb_log_file_size 的 最 大 值 
以 上 都 是 MySQL AB 的 文档 中 所 罗列 的 事项 ， 由 于 内 存 相 关 的 参数 也 
有 彼此 相关 的 ， 不 注意 的 话 配置 的 数值 会 相互 和 矛盾。 因此， 在 变更 参数 
时 ， 可 以 使 用 该 mymemcheck 工具 确认 所 设置 的 数值 是 否 合理 。 


运行 结果 如 图 4.3.1 所 示 。 


$ ./mymemcheck my.cnf 


[ minimal memory |] 
ref 
* [High Performance MySQL」，Solving Memory Bottlenecks, p125 


global buffers 


key_buffer_size 268435456 256.668 [M] 
innodb_ buffer pool size 536876912 ”512.666 [M] 
innodb log buffer_ size 16777216 16.066 [M] 
innodb additional mem pool size 20971526 26.066 [M] 
net_buffer_length 16384 16.066 [K] 


thread buffers 


sort buffer size 2697152 2.066 [M] 
myisam_sort_buffer_size 1648576 1624.666 [K] 
read buffer size 1648576 1624.666 [K] 
join buffer_size 262144 ”256.666 [K] 
read_ rnd buffer size 1648576 1624.666 [K] 
max_connections 250 


min memory_needed = global buffers + (thread buffers* max_connections) 


= 843671488 + 5565624*# 256 
2219327488 (2.667 [6G]) 


[ 32bit Linux x86 limitation ] 


ref 
* http://dev. 


mysql.com/doc/mysql/en/innodb-configuration.html 


* need to include read rnd buffer. 
* no need myisam sort buffer because allocate when repair, check alter. 


2G > 
process heap = 


2G > 


[ maximum size 
ref 
* http://dev. 


process heap 

innodb buffer pool + key_buffer 

+ max_connections* (sort buffer + read buffer + read rnd_ buf 
+ max_connections* stack size 

536876912 + 268435456 

+ 250* (2697152 + 1648576 + 1648576 ) 

+ 250* 262144 

1919418368 (1.788 [G]) 


1.788 [G] ... safe 
of innodb log file size | 


mysql.com/doc/mysql/en/innodb-start.html 


1MB < innodb log file size < MAX innodb log file size < 4GB 


MAX_innodb log file size = innodb buffer pool size* 1/innodb log files in gl 


536876912+ 1/2 
= 268435456 (256.666 [M]) 


innodb log file size < MAX innodb log file size 


134217728 < 268435456 


128.600 [M] < 256.660 [M] ... safe 


图 4.3.1 mymemcheck 的 运行 实例 


第 5 章 ”局 效 运 行 一 一 确保 服务 的 
稳定 提供 
5.1 服务 状态 监控 Nagios 


5.1.1 稳定 的 服务 运营 与 服务 状态 监控 


服务 状态 监控 是 稳定 的 服务 运营 所 不 可 或 缺 的 。 即 便服 务 器 已 经 做 了 元 
余 的 处 理 ， 由 于 一 时 跑 忽 ， 或 者 见 余 的 设备 出 现 故 障 ， 都 会 造成 很 严重 
的 情况 。 大 故障 再 度 出 现 ， 服 务 就 很 有 可 能 停止 运作 。 当 系统 的 茶 个 部 
很 重要 的 。 


Nagios : 是 著名 的 开源 服务 状态 监控 工具 。 由 于 Nagios 配置 灵活 ， 因 此 
在 世界 范围 内 被 广泛 使 用 。 


1 URL http:/www.nagios.org/ 


5.1.2 ”状态 监控 的 种 类 


通常 情况 下 ， 服 务 状态 监控 并 不 仅仅 是 监控 服务 的 茶 个 功能 是 否 正常 运 
行 ， 还 包含 确认 负载 状态 等 方面 。 服 务 的 状态 监控 可 分 为 以 下 三 类 : 


1 主机 或 服务 的 运行 状态 等 网 络 服务 存活 状态 的 监控 
2 主机 的 CPU 占用 率 或 服务 的 吞吐 量 等 负载 状态 的 监控 


3 在 一 段 时 间 内 (一 个 月 或 是 一 年 服务 正常 运行 的 时 间 所 占 的 比 
例 ， 即 可 用 率 的 统计 


1 存活 状态 的 监控 
存活 状态 的 监控 是 指 确认 某 个 功能 是 人 否 可 用 ， 是 基本 的 状态 监控 操作 。 


比如 ， 通 过 使 用 ping 指令 确认 主机 是 否 在 正常 运作 、 服 务 的 TCP 连接 
古 否 可 用 、 目 标 服 务 八 是 售 能 够 进行 基本 的 协议 处 理 ， 从 而 检查 服务 状 
态 是 人 否 正 负 。 

如 打通 过 ping 指令 没有 接 到 目标 服务 器 的 应 答 ， 或 者 TCP 连接 不 可 
用 、 无 法 进行 基本 的 协议 处 理 ， 束 能 断定 目标 主机 或 服务 已 经 处 于 不 可 
用 的 状态 ， 这 时 监控 系统 会 及 时 通知 运 维 人 员 。 运 维 人 员 接 到 通知 后 ， 
人 
时 o 


在 被 监控 的 服务 已 经 进行 了 宛 余 处 理 的 情况 下 ， 状 态 监 控 就 并 不 仅 针 对 
提供 服务 的 主机 ， 通 过 同时 监控 经 过 宛 余 处 理 的 VIP (虚拟 IP 了 地 

址 ) ， 就 可 以 从 最 终 用 户 的 视角 来 判断 服务 是 否 还 在 正常 运作 。 这 样 当 
故障 发 生 时 ， 就 能 轻易 判断 出 经 过 宛 余 处 理 的 主机 的 某 处 故障 会 不 会 影 
啊 到 服务 ， 是 否 会 对 服务 的 正常 提供 造成 影响 。 


在 图 5.1.1 的 例子 中 ， 即 便服 务 器 B 出 现 了 故障 ， 负 载 均 衡器 也 会 自动 
将 请 求 切换 到 服务 器 A， 服 务 丝毫 不 受 影响 。 在 这 样 的 架构 下 ， 不 仅 要 
监控 服务 器 A 与 服务 器 B， 还 需要 将 负载 均衡 器 的 VIP 也 列 为 监控 对 
象 ， 据 此 来 确认 是 否 会 对 服务 造成 影响 ， 并 判断 故障 的 紧急 程度 。 


ae 
= 


Ld 
二 
Pd 
» 
Ld 
Ld 
La 


一 一 Jo 请求 
-…-- 监控 


图 5.1.1 经 过 元 余 处 理 的 情况 下 的 监控 


2 负载 状态 的 监控 


负载 状态 的 监控 是 指 检查 是 否 存在 一 些 情况 “ 虽 不 会 令 服务 停止 运作 ， 
但 会 对 服务 的 运行 带 来 过 大 压力 ”， 是 一 种 非常 实用 的 监控 。 


为 了 监控 负载 状态 ， 可 以 从 统计 目标 主机 的 CPU 负载 、 当 前 系统 中 等 
符 进 程 的 数量 等 信息 者 手 ， 判 断 目标 主机 的 负载 是 否 已 经 达到 了 腊 季 的 
程度 ″。 另 外 ， 还 可 以 统计 在 提供 服务 的 进程 的 请 求 队列 中 等 待 的 请 求 
数 ， 以 及 请 求 的 啊 应 时 间 ， 来 监控 在 所 允许 的 服务 等 级 的 情况 下 ， 疝 该 
服务 的 进程 发 出 的 请 求 是 否 能 够 得 到 处 理 。 大 是 出 现 了 等 竺 进程 数 寞 锦 
多 ， 或 啊 应 时 间 过 长 的 情况 ， 那 就 能 断定 主机 或 服务 已 经 出 现 了 负载 过 


高 的 问题 。 


?2 关于 统计 负载 ， 在 4.1 节 有 详细 说 明 。 


负载 过 高 的 原因 可 分 为 下 列 三 种 情况 : 
@ DoS 攻击 等 造成 的 异常 请 求 导致 负载 过 高 
四 Slashdot 效应 3 等 造成 的 突 发 请 求 导 致 负载 过 高 


3 Slashdot 效应 指 的 是 当 一 个 受众 广泛 的 站 点 引荐 了 另 一 个 小 众 的 网 站 后 ， 该 小 众 网 站 访问 人 
数 激 增 的 情况 。 


全 纯粹 因为 服务 太 受 欢迎 ， 请 求 数 平 稳 提 升 而 导致 负载 过 高 


因此 ， 负 载 过 高 的 应 付 办 法 也 比较 复杂 ， 需 要 针对 各 种 不 同 的 负载 问 

题 ， 找 到 具体 的 解决 方法 。 例 如 ， 在 @ 的 情况 下 ， 要 提前 预知 流量 异 
常 的 情况 ， 并 及 时 截 拦 请 求 ， 在 @ 的 情况 下 ， 需 要 设置 高 速 绥 存 ， 而 
在 像 @ 那样 因为 服务 自身 太 受 欢迎 而 请 求 数 增加 的 情况 下 ， 就 需要 考 
虑 扩充 主机 等 了 。 

通过 监控 负载 状态 ， 能 够 检测 出 “服务 能 够 使 用 ， 但 是 运行 较 慢 ?的 情 

况 ， 但 这 种 情况 单纯 通过 存活 状态 的 监控 是 检测 不 出 来 的 。 因 此 需要 对 
这 种 情况 加 以 应 对 ， 以 维持 展 好 的 系统 啊 应 。 


3 可 用 率 的 统计 


可 用 率 的 统计 与 上 述 两 种 监控 不 同 ， 它 是 通过 分 析 数 周 甚 至 数 月 间 示 方 
面 的 监控 结果 ， 发 现 并 改善 系统 在 长 期 运行 中 存在 的 问题 。 


通过 存活 状态 的 监控 和 负载 状态 的 监控 ， 可 以 得 知 服务 的 具体 运作 情况 
以 及 负载 情况 ， 从 而 客观 地 分 析 系 统 的 哪个 部 分 容易 出 现 问题 ， 系 统 整 
体 的 可 用 率 是 怎样 的 等 。 


基于 这 一 分 析 ， 我 们 就 能 够 掌握 特定 主机 的 不 稳定 性 ， 或 者 了 解 到 系统 
架构 原本 就 是 不 稳定 的 ， 并 据 此 战略 性 地 考量 整个 系统 的 元 余 状 况 、 运 
维 人 员 的 维护 习惯 等 。 


5.1.3 ”Nagios 概述 


Nagios 是 具有 以 上 介绍 的 监控 和 统计 功能 的 代表 性 的 监控 工具 。Nagios 
可 以 通过 ping 指令 测试 网 络 服务 的 存活 状态 ， 通 过 TCP 连接 进行 各 种 
服务 的 监控 ， 通 过 SNMP (Simple Network Management Protocol) 进行 
主机 的 状态 监控 ， 甚 至 还 可 以 通过 插件 进行 任意 方式 的 监控 。 另 外 在 监 
控 结 果 的 通知 方面 ， 除 了 基本 的 邮件 通知 方式 外 ， 还 可 以 任意 设 定 其 他 
方式 。 而 且 通 过 Web 接口 ， 能 方便 地 参考 监控 目标 的 状态 ， 还 能 控制 
监控 的 停止 或 开始 。 


我 们 以 本 节 写 作 时 (2008 年 ) 的 最 新 版 本 Nagios 3.0.2 为 基础 来 说 明 。 
安装 Nagios 


由 于 Red Hat Enterprise Linux 5 及 CentOS 5 的 标准 软件 包 内 没有 包含 
Nagios， 因 此 请 从 下 面 的 官方 网 址 下 载 软件 包 来 安装 。 


URL http:/www.nagios.org/ 

将 Nagios 安装 完成 后 ， 还 可 以 安装 “Official Nagios Plugins” 脚 本 以 监控 
更 多 的 对 象 。Official Nagios Plugins 中 还 有 其 他 的 环境 依赖 包 ， 需 要 时 
可 根据 情况 添加 安装 。 本 贡 的 说 明 均 以 在 CentOS 5.0 系统 中 进行 的 操作 
为 准 。 


5.1.4 Nasgios 的 配置 
由 于 Nagios 的 配置 更 具 弹 性 ， 因 此 配置 起 来 也 稍微 有 些 复杂 。 了 可 以 参 


考 安装 路 径 内 的 示例 配置 文件 来 进行 配置 。 
首先 ， 配 置 Nagios 所 必需 的 基本 概念 请 参考 表 5.1.1。 接 下 来 ， 我 们 对 


表 5.1.1 中 的 主要 概念 进行 一 些 说明 。 
表 5.5.1 Nagios 的 基本 概念 


host《〈 主 机 ) 服务 器 或 路 由 器 等 网 络 上 的 


oo (主机 | 将 多 个 主机 进行 分 组 ， 每 组 至 少 拥 有 一 个 主机 。 可 以 以 主机 组 关 
组 ) 


基本 的 物理 元 素 ， 即 主机 


单位 ， 指 定 各 主机 的 事件 〈 主 机 故障 、 恢 复 等 ) 的 通知 对 象 


主机 上 所 运行 的 服务 。 该 服务 不 仅 支 持 POP 及 HTTP 等 功能 
Service (服务 》 | 以 返 加 ping 响 应 及 空余 的 磁盘 容量 等 


用 


contact (通知 对 | 定义 Nagios 中 的 各 种 事件 的 通 
象 ) 地 ) 


contactgroup 〈 通 | 将 多 个 通知 对 象 进 行 分 组 。 


以 方便 显示 在 Web 管 理 


甬 知 对 象 《contact， 即 通知 发 往 的 目的 


主机 组 及 服务 中 指定 的 通知 对 象 就 是 


知 对 象 组 ) 通知 对 象 组 


template 〈 模 在 多 个 主机 及 服务 的 设 定 存 在 公共 部 分 的 情况 下 ， 可 以 通过 使 用 


板 ) 模板 ， 简 化 公共 部 分 的 设 定 


配置 文件 


， 让 设 定 的 参数 列表 更 加 简洁 


在 下 面 的 解说 中 ， 我 们 假设 在 安装 Nagios 3.0.2 的 同时 ， 还 一 并 安装 
了 “nagios.cfg”commands.cfg”]ocalhost.cfg”* 等 配置 文件 。 


配置 文件 是 在 多 个 扩展 名 为 cfg 的 文件 中 存储 的 ， 这 么 设计 是 为 了 方便 
在 别 的 文件 中 骸 套 读 取 这 些 配 置 项 目 。 随 着 主机 数 的 增加 ， 配 置 文件 也 
会 变 得 越 来 越 庞大 ， 为 了 碍 阅 方便 ， 可 以 将 配置 文件 进行 分 割 。 

host ...... 主机 的 配置 

通过 host 对 需要 监控 的 主机 进行 必要 的 配置 。 由 于 通过 host 设 定 的 项 
目 多 种 多 样 ， 并 且 这 些 设置 项 目 在 多 个 主机 中 存在 很 多 共同 之 处 ， 所 以 
建议 使 用 模版 。 


代码 清单 5.1.1 中 的 例子 是 ， 首 先 定义 了 generic-host 的 模版 ， 然 后 基于 
该 模版 定义 了 主机 localhost。 


各 配置 项 目 在 代码 清单 5.1.1 中 的 注释 中 有 简单 的 说 明 ， 接 下 来 对 重要 
的 配置 项 目 进行 补充 说 明 。 


e flap_detection_enabled 
发 生 故 障 和 修复 故障 这 两 种 行为 频繁 地 重复 出 现 ， 这 种 现象 就 称 之 
为 Flapping。 一 旦 Flapping 发 生 ， 束 会 涌 来 大 量 的 通知 信息 ， 此 时 
别 的 有 用 的 通知 信息 就 可 能 会 被 次 没 。 将 该 配置 参数 设置 为 有 效 
时 ， 如 果 监 控 出 了 Flapping， 就 会 只 发 出 开始 和 结束 的 通知 

e max_ check_attempts 
当 检 测 失 败 的 次 数 超过 这 里 指定 的 次 数 时 ， 就 认为 主机 发 生 了 故 
障 ， 并 发 出 通知 

e notification_period 


发 送 通知 的 时 间 段 。localhost.cfg 中 有 “24x7”(24 小 

时 ) 、“workhours”( 工 作 日 上 午 9 时 到 下 午 5 

时 ) 、“nonworkhours”( 工 作 日 上 午 9 时 到 下 午 5 时 以 外 的 时 
间 ) 、“none”( 没 有 对 应 的 时 间 段 ) 这 四 种 定义 方式 。 一 般 使 
用 “24x7” 的 配置 方法 


e check command 


监控 时 使 用 的 命令 。 配 置 例子 中 指定 的 check-host-alive 是 基于 通过 


发 出 ping 对 主机 进行 监控 的 check-ping 命令 的 命令 。 默 认 的 配置 
是 如 有 果 5000 时 秒 以 内 没有 做 出 反映 ， 束 会 变 成 CRITICAL 状态 


service ...... 服务 的 定义 


service 定义 了 日 前 主机 上 所 运行 的 服务 (代码 清单 5.1.1) 。 和 host 一 
样 ， 也 可 以 使 用 模版 功能 使 描述 更 加 简洁 。 


代码 清单 5.1.1 host 的 配置 案例 


define host{ 
name generic-host < 模版 名 
notifications enabled < 开启 主机 的 通知 
event_ handler_ enabled < 开启 主机 的 事件 处 理 程序 (Event Handler) 
flap_detection enabled < 监控 Flapping 
failure prediction enabled 启 故障 预 判 
process_perf_data < 处 理 有 关 性 能 的 信息 
retain status_ information < 重启 后 依然 保留 状态 信息 
retain nonstatus_ information < 重启 后 依然 保留 状态 以 外 的 信息 
notification period 24x7 “在 所 有 时 间 段 都 会 通知 
register 6 “这 里 默认 即 可 


} 
define host{ 
name linux-server < 模板 名 
use generic-host < 指定 所 使 用 的 模板 
check_period 24x7 < 在 所 有 时 间 段 都 会 监控 


max_check_attempts 16 < 规定 最 多 监控 16 次 

check_command check-host-alive < 监控 用 的 命令 

notification period workhours < 只 在 工作 日 白天 通知 

notification interval 126 < 通知 间隔 

notification options d,u,r < 通知 的 状态 

contact_ groups admins < 通知 对 象 所 在 的 contactgroup 

register 6 < 这 里 默认 即 可 
} 

define host{ 
use linux-server < 指定 使 用 的 模板 
host_name ”localhost < 主机 名 
alias Localhost Server < 别名 
address 192.168.6.1 ”<IP 地 址 


command ...... 命令 的 定义 


可 以 用 command 定义 命令 。 在 代码 清单 5.1.2 (service 的 配置 案例 ) 
中 ， 用 check_ping 对 服务 进行 了 监控 。 命 令 名 (check_ping ) 后 面 
的 "1166.6,26%1566.6,66%" 是 该 命令 的 参数 ， 用 ! 隔 开 。 这 

里 "166.6,26%" 对 应 了 $ARG1$ ，"566.6,66%" 对 应 了 $ARG29。 


这 个 命令 的 默认 设 定 如 代码 清单 5.1.3 所 示 。 可 以 使 用 -w 参数 来 定义 发 
生 WARNING 的 条 件 ， 使 用 -c 参数 来 指定 CRITICAL 的 条 件 。 在 代码 
清单 5.1.2 的 情况 下 ， 若 出 现 100ms 以 上 的 延迟 或 者 20% 以 上 的 丢 包 的 
话 ， 就 会 发 生 WARNING ; 若 出 现 500ms 以 上 的 延迟 或 者 60% 以 上 的 
于 包 的 话 ， 束 会 发 生 CRITICAL 。 


代码 清单 5.1.2 service 的 配置 案例 


define servicet 


eneric-service < 模板 名 

< 启动 主动 监控 

< 启动 被 动 监控 

< 在 主动 监控 中 启动 并 行 监控 
obsess_over_ service < 在 分 流 环境 中 通知 结果 
check_ freshness < 关闭 强制 刷新 (freshness 监 控 ) 


name g 

1 

1 

1 

1 

0 
notifications_enabled 1 < 开启 主机 的 通知 

1 

1 

1 

1 

1 

1 


active checks enabled 
passive_ checks _ enabled 
parallelize check 


event_handler _ enabled < 开启 事件 处 理 程 序 
flap_detection enabled 启动 抖动 监控 
failure prediction enabled < 开启 故障 预 判 
process_perf _data < 处 理 有 关 性 能 的 信息 

retain status_ information EE 启 后 依然 保留 状态 信息 
retain nonstatus_information EE 启 后 依然 保留 状态 以 外 的 信息 
is volatile 6 


个 


个 


上 
习 


个 


register 6 < 这 里 默认 即 可 

} 

define servicet{ 
name local-service < 模板 名 
use generic-service < 指定 所 使 用 的 模板 
check_period 24x7 < 在 所 有 时 间 段 都 会 监控 
max_check_attempts 4 < 最 多 尝试 4 次 监控 


normal_ check interval 5 
retry_check_interval 1 
contact_ groups admin 


notification options wu Cc,r < 通知 的 状态 
notification interval 66 < 通知 间隔 
notification period 24x7 


register 0 


} 


define servicet{ 
use local-service < 指定 所 使 用 的 模板 
host_name localhost ”< 所 使 用 的 主机 组 


service description PING < 服务 名 
check_command check ping!166.0,26%!560.0,60% < 监控 命令 


代码 清单 5.1.3”command 的 配置 案例 


# 'check_ ping' command definition 
define command{ 
command_name check_ping 
command 1ine $USER1$/check ping -H $HOSTADDRESS$ -w $ARG1$ -c $A 


} 


contact 与 contactgroup ...... 通知 对 象 和 通知 对 象 组 


可 以 用 contact 定义 通知 对 象 ， 用 contactgroup 定义 通知 对 象 组 (代码 
清单 5.1.4) 。 通 知 通常 都 是 通过 指定 通知 对 象 组 进行 ， 因 此 最 少 要 有 
一 个 通知 对 象 组 。 

可 以 使 用 service_notification_commands 命令 来 处 理 服 务 相 关 的 通知 ， 

用 host_notification_commands 命令 处 理 主 机 相关 的 通知 。 代 码 清单 
5.1.4 是 配置 邮件 通知 的 实例 。 


代码 清单 5.1.4 _ contact 及 contactgroup 的 配置 案例 


define contact{ 


contact_name nagios-admin < 通知 对 象 名 
alias Nagios Admin < 通知 对 象 的 别名 
service notification period 24x7 < 处 理 服务 通知 的 时 间 有 段 
host_ notification period 24x7 < 处 理 主 机 通知 的 时 间 段 
service notification options  w,u,c,r < 服务 通知 的 事件 类 型 
host_notification options d,r < 主机 通知 的 事件 类 型 


service_ notification commands notify-by-email < 服务 的 通知 命令 
host _ notification commands host-notify-by-email < 主机 的 通知 命令 


email nagios-admin@localhost < 通知 对 象 的 邮箱 地 址 
} 


define contactgroup{ 


contactgroup_name admins < 通知 对 象 组 的 名 字 

alias Nagios Administrators < 通知 对 象 组 的 别名 
members nagios-admin < 该 通知 对 象 组 中 所 包含 的 通知 对 象 名 
} 


配置 的 测试 
更 改 Nagios 的 配置 的 时 候 ， 可 以 用 以 下 命令 让 配置 立刻 生效 : 


/etc/init.d/nagios reload 


假设 配置 中 存在 语法 错误 等 问题 ， 执 行 以 上 命令 时 将 会 输出 这 些 错误 信 


息 。 可 以 根据 情况 对 配置 文件 进行 恰当 的 修正 。 
5.1.5 ”Web 管理 界面 
Nagios 拥有 强大 的 Web 管理 界面 ， 能 够 在 此 确认 各 种 主机 和 服务 的 状 


态 ， 还 可 以 和 暂停 监控 等 进行 某 种 程度 的 控制 。 图 5.1.2 是 Nagios 的 主 菜 
单 。 关 于 菜单 的 内 容 在 表 5.1.2 中 进行 了 说 明 。 
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表 5.1.2 Nagios 的 主 菜单 


项 目 


Monitoring “|Monitoring 项 目下 从 各 种 角度 列 出 了 监控 相关 的 状态 


Tactical 列 出 每 个 主机 及 服务 的 状态 信息 ， 还 能 显示 出 各 个 主机 及 服务 的 监控 
Overview 情况 ， 以 便 把 握 系 统 整 体 的 健康 信息 


Service Detail | 列 出 不 同 了 详情 。 Cf 行 排序 以 从 整体 上 把 握 


Host Detail 过 浏览 主机 的 详情 ， 可 以 了 解 该 主机 是 否 已 经 遭 


Hostgroup 
Overview 


Hostgroup 
Summary 


Hostgroup 
Grid 


Servicegroup 
Overview 
Servicegroup 
Summay 
Servicegroup 
Grid 


Status Map 
3-D Status 
Map 


Service 
Problems 


Host 
Problems 


Comments 


确认 各 个 主机 组 的 状态 。 通 过 组 的 划分 可 以 从 不 同 的 目的 进行 把 


HI 


男 外 通过 主机 组 名 的 链接 ， 可 以 只 查看 特定 组 的 信息 


列 出 各 主机 组 的 状态 情况 及 数目 


类 似 Hostgroup Overview， 以 表格 的 形式 列 出 ， 方 便 在 故障 时 特定 到 


具体 的 服务 (图 5.1.3) 


将 Hostgroup Overview、Hostgroup Summay、Hostgroup Grid 的 主机 组 


划 归 到 相应 的 服务 组 时 的 界面 


可 以 查看 主机 的 网 络 拓扑 关系 图 4 。 


Map 是 根据 VRML 创 建 的 3D 图 表 


只 列 出 发 生 故障 的 服务 


只 列 出 发 生 故 障 的 主机 


Status Map 是 2D 


列 出 在 拓扑 中 发 生 故 障 时 网 络 中 断 的 具体 信息 


显示 主机 及 服务 的 相关 备注 信息 


列 出 计划 中 的 停机 时 间 


Nagios 的 进程 信息 
间 等 信息 外 ， 还 能 


图 ，3-D Status 


Performance 
Information 


Scheduling 
Queue 


Availability 


Alert 
Histogram 


根据 Nagios 所 监控 的 性 能 信息 ， 显 示 执 行 监控 命令 的 时 间 的 统计 等 信 
息 


显示 高 度 队列 信息 《只 里 员 才 能 看 到 ) ， 列 出 相关 进程 下 次 监控 
的 时 间 序 列 


成 关于 主机 或 服务 的 状态 变化 的 趋势 


生成 主机 或 服务 在 一 定时 期 内 的 正常 运行 率 及 各 状态 的 频率 ， 以 及 列 


出 监控 日 志 


生成 关于 主机 或 服务 的 警告 数 的 变化 趋势 


显示 所 有 主机 及 服务 的 警告 的 历史 记录 〔 图 5.1.4) 


Alert 
Summary 


从 指定 的 主机 和 服务 的 去 后 记录 中 ， 显 示 最 新 的 25 条 ， 或 最 多 显示 25 


东 


的 通知 ， 还 能 通过 特定 的 种 ; 


显示 Nagios 的 


列 出 主机 及 服务 的 配置 情况 


RE 


图 像 仅 限 在 Windows 操作 系统 中 的 正 浏览 器 下 ， 安 装 cortbeta 才 会 显示 。 一 一 译 者 注 
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Log File 
Latest Navigation History detail level for all hosts: 
Archive ”Mon Jun 16 00:00:00 [Heens “ 司 
JST 2008 
所 to DD Hide Fiapping Alerts 
EF Hide Downtime Alerts 
File: lusriocalinagios/varinagios .log DF Hide process Messages 


FF otiger Entries First 


June 16, 2008 22:00 


@ 6.2008 2229:56] SERVICE ALERT bcahostRoot Parttion WARNNG-HARD4.DISK WARNNG - free space: 1735 MB (20% inode=77%) 
3 {06-16-2008 22:28-56}] SERVICE ALERT: ocahost Root Parttion:WARNING:SOFT:3:.DISK WARNING - free space: /735 MB (20% inode=77%)- 
{06-16-2008 22.28-35] SERVICE ALERT: iocahostHTTP:WARNING:HARD;4;:HTTP WARNING: HTTPH.1 403 Forbidden 
{06-16-2008 22:27:56] SERVICE ALERT: bcalhost Root Parttion:WARNING:SOFT;2;DISK WARNING - free space: /735 MB (20% inode=77%): 
(06-16-2008 22.27-36] SERVICE ALERT: bcalhost:HTTP:WARNING; SOFT,3.HTTP WARNNG: HTTP/1.1 403 Forbidden 
{06-16-2008 22.26-56] SERVICE ALERT: localhostRoot Parttion-WARNING;SOFT:1:DISK WARNING - free space: 1 735 MB (20% inode=77%)- 
[106-16-2008 22.26:36] SERVICE ALERT: pcalhostHTTP:WARNING:SOFT2:HTTP WARNING: HTTP/1.1 403 Forbidden 
3 106-16-2008 22:25:37] SERVICE ALERT: bcahost HTTP'WARNING:SOFT;1:HTTP WARNING: HTTP/1.1 403 Forbidden 
{06-16-2008 22.24-25] Nagios 3.0.2 starting.. (PID=10303) 
(06-16-2008 22.24-23] Caught SIGTERM, shutting down... 
GO 106-16-2008 22.23:41] Nagios 302 startng... (PD=10236) 


图 5.1.4 Nagios 的 Alert History 界面 


5.1.6 ”Nagios 的 基本 使 用 方法 


鉴于 Nagios 的 配置 极 具 弹 性 化 ， 可 能 不 太 容 易 上 手 。 这 里 我 们 以 网 络 
服务 器 的 监控 为 例 ， 介 绍 一 下 Nagios 的 基本 使 用 方法 。 


主机 和 服务 的 定义 


首先 ， 登 录 正 在 运作 服务 的 主机 代码 清单 5.1.5) 。 其 次 ， 针 对 各 个 
服务 在 主机 组 中 进行 分 配 ， 对 每 个 主机 组 进行 监控 。 


增加 的 服务 有 两 种 : 整个 服务 器 上 共通 的 服务 ， 以 及 与 各 个 服务 器 的 工 
作 相 应 的 服务 。 监 控 服 务 器 中 共有 的 服务 时 ， 可 以 使 用 check_ping 命 
令 监 控 主 机 的 运行 状态 ， 通 过 check_snmp 命令 确认 磁盘 的 剩余 空间 ， 
这 是 基础 的 SNMP 监控 服务 。 


Apache 之 类 的 Web 服务 器 的 情况 下 ， 可 以 使 用 check_http ; MySQL 
服务 器 的 情况 下 ， 可 以 使 用 check_mysq1 命令 。Official Nagios Plugins 
中 包含 了 check_mysql 命令 。 


代码 清单 5.1.5 主机 与 服务 的 配置 案例 


define command{ 

command_name check mysql 

command line $USER1$/check mysql -H $HSTADDRESS$ -u $ARG1$ -p 
$ARG2$ -P $ARG3$ 
} 


define host{ 
Use linux-server 
host name databaseserverl1 
alias databaseserver1 
address 192.168.0.166 


} 


define hostgroup { 


hostgroup_name database-servers 
alias Database Servers 
members databaseserver1 


} 


define servicet{ 
use http-service 
hostgroup_name database-servers 
service description MySQL 
check_command check mysql!nagios!nagios!33066 


} 


通知 


根据 运行 监控 ， 当 发 现 异 党 或 警告 时 ， 尽 可 能 迅速 吕 地 通知 萤 0 
对 是 非常 必要 的 。 作 为 实现 这 项 工作 的 基本 功能 ， 需 要 发 送 异 常 和 警 

内 容 的 邮件 。 因 为 这 里 可 以 启动 任意 命令 ， 所 以 根据 所 安装 的 命令 情 
况 ， 有 时 还 需要 向 I[RC、IM 等 发 送 通知 。 


举例 来 说 ， 假 设 笔者 要 把 故障 通知 发 到 各 个 运 维 人 员 的 手机 上 ， 
IRC 发 送 通知 。IRC 主要 被 用 于 共享 应 对 故障 时 的 信息 ， 0 
发 送 Nagios 的 通知 信息 ， 可 以 很 好 地 把 握 发 生 复杂 故障 时 的 状况 。 


邮件 是 发 送 Nagios 故障 通知 的 基本 方式 。 故 障 一 旦 发 生 ， 如 图 
5.1.5 所 示 的 邮件 融会 被 发 送 。 默认 的 配置 是 主机 的 情况 下 使 用 
host-notify- by-email 命令 ， 服 务 环境 的 情况 下 使 用 notify- 
by-email 命令 。 各 种 命令 的 配置 实例 请 参阅 代码 清单 5.1.6。 


图 5.1.5 Nagios 的 通知 邮件 示例 


From: nagios@example.com 
Subject: CRITICAL 1611/http_service 
To: maintenanceQ@example.com 


Notification Type: PROBLEM 
Service: http service 

Host: 1611 

Address: 192.168.1.11 

State: CRITICAL 

Date/Time: 82-68-26068 12:37:51 


Additional Info: 


(Service Check Timed Out) 


代码 清单 5.1.6 ”邮件 通知 命令 的 配置 


# 'host-notify-by-email' command definition 
define command{ 

command_name host-notify-by-email 

command_line /usr/bin/printf "%b" "*****NagiOs *****\n\ 
nNotification Type: $NOTIFICATIONTYPE$ \NnHost: $HOSTNAME$ \nState: 
$HOSTSTATE$ \nAddress: $HOSTADDRESS$\nInfo: $HOSTOUTPUT$ \Nn\nDate/ 
Time: $LONGDATETIME$\n" | /bin/mail -s "$HOSTSTATE$ $HOSTNAME$!" 
$CONTACTEMAILS 

} 


# 'notify-by-email' command definition 


define command{ 

command_name notify-by-email 

command_line /usr/bin/printf "%b"” "****** NagiOs *****\n\ 
nNotification Type: $NOTIFICATIONTYPE$ \Nn\nService: $SERVICEDESCS$\ 
nHost: $HOSTALIAS$\nAddress: $HOSTADDRESS$\nState: $SERVICESTATES\ 
n\nDate/Time: $LONGDATETIME$ \N\NnAdditional Info:\n\ 
Nn$SERVICEOUTPUT$" | /bin/mail -s 
" $SERVICESTATE$ $HOSTALIAS$/$SERVICEDESC$ " $CONTACTEMAILS 

} 


一 一 JRC 


在 Hatena 网 站 的 架构 中 ， 除 邮件 的 方式 外 ， 还 可 以 同 IRC 的 相应 
频道 发 出 警告 。 当 故障 发 生 的 时 候 ， 管 理 员 需要 在 考虑 应 对 方法 的 
同时 ， 与 多 方 联络 进行 沟通 。 在 这 种 情况 下 ， 随 时 掌握 不 断 变化 的 
服务 器 的 状态 并 共享 信息 ， 这 样 才 可 以 有 效 地 应 对 故障 。 而 且 ， 当 
发 生 影响 范围 大 的 故障 时 ， 使 用 邮件 的 方式 就 会 造成 大 量 邮件 的 发 
送 ， 因 此 邮件 监控 方式 的 直观 性 可 能 会 受到 影响 。 此 时 ， 使 用 IRC 
的 方式 ， 通 过 对 IRC 的 频道 日 志 进 行 确认 ， 就 能 够 完全 掌握 全 部 状 
?Ms 


在 使 用 IRC 的 方式 传递 信息 时 ， 需 要 准备 IRC 服务 器 、IRC 消息 
机 器 人 、 回 消息 机 器 人 传递 信息 的 客户 端 这 三 者 。IRC 服务 器 使 用 
了 标准 的 ircd ; IRC 机 器 人 使 用 名 为 Kwiki::Notify::irc 的 CPAN 模 
块 ， 在 该 模块 中 包含 名 为 “notify-irc.p1* 的 消息 机 器 人 ; 客户 端 使 用 
了 将 同一 模块 的 Kwiki::Notify::IRC.pm 作为 单一 脚本 来 运行 ， 这 里 
也 使 用 到 了 “notify_irc.pl*”( 代 码 清单 5.1.7、 代 码 清单 5.1.8) 


代码 清单 5.1.7 使 用 notify_irc.pl 所 需 的 设 定 


define contact{ 
contact name rc 
alias irc-bot 
email test@example.com 
service notification period 24x7 
host notification period 24x7 
service notification options w,u,c,r 
host notification options d,u,r 
service notification commands notify-irc 
host notification commands host-notify-irc 


} 


# 'notify-by-irc' command definition 


define command{ 
command_name notify-irc 
command_line $USER1$/notify irc.pl "$SERVICESTATE$ $HOSTALIAS$ 
/$SERVICEDESC$ ($HOSTNAMES$ )" 
} 
# 'host-notify-by-irc' command definition 
define command{ 
command_name host-notify-irc 
command_line $USER1$/notify irc.pl "$SERVICESTATE$ $HOSTALIAS$($HOST 


} 


代码 清单 5.1.8 ”notify_irc.pl 


#!/usr/bin/perl 

use strict; 

use warnings; 

use POE: :Component::IKC::ClientLite; 
my $message = shift; 


my $remote = POE::Component::IKC::ClientLite::create ikc client( 
port => 9999 ， 
ip => "1ocalhost '， 
name => "Nagios$$", 
timeout => 5， 
) or die "Couldn't create IRC connection!"; 
$remote->post('notify irc/update', $message); 
exit ©; 


5.1.7 实用 的 使 用 方法 
本 市 将 要 介绍 测定 可 用 率 及 独立 插件 等 Nagios 的 使 用 方法 。 
可 用 率 的 测定 


要 测定 可 用 率 ， 首 先 要 能 够 检测 服务 的 运行 。 基 本 做 法 是 ， 使 用 服务 的 
全 局 IP 地 址 定义 主机 ， 然 后 再 定义 作为 测定 对 象 的 服务 。 人 例如， 测定 
http://www.hatena.ne. jp/ 的 可 用 率 的 Nagios 配置 天 如 代码 河和 
5.1.9 所 示 。check_vhost 命令 可 以 通过 使 用 check_http 命令 ,在 
FQDN (Fully Qualified Domain Name， 完 全 限定 域名 ) 中 指定 相应 域 
名 ， 从 而 来 指定 任意 服务 器 。 


接 下 来 ， 将 可 用 率 记 录 为 图 表 化 的 形式 。 代 码 清单 5.1.10 是 Hatena 的 
分 析 脚 本 ， 是 在 Nagios 的 Web 管理 界面 中 截取 的 。 该 脚本 每 日 运行 一 
次 ， 这 样 服务 的 可 用 率 就 可 以 以 明了 的 图 表 形 式 同 外 部 展示 。 图 5.1.6 
中 展示 了 图 表 化 的 可 用 率 。 


代码 清单 5.1.9 测定 可 用 率 的 配置 


define service { 
use generic-service 
host_name hatena-www.hatena.ne.jp 
service description hatena-www 
check_command check_ vhost!lwww.hatena.ne.jp!/ 


} 


define host { 
use generic-host 
host_name hatena-www.hatena.ne.jp 
address 59.166.168.86 
alias hatena-question 


} 


# 'check vhost' command definition 
define command{ 

command_name check_ vhost 

command_line $USER1$/check http -H $ARG1$ -u $ARG2$ -t 120 
} 


代码 清单 5.1.10 将 可 用 紊 图 表 化 的 脚本 


#!/usr/bin/env ruby 

require 'rubygems' 

require 'hatena/api/graph' 

require 'hpricot' 

require “pathname 

root = Pathname.new( FILE ).parent 

require root.parent.join('lib/hatena_consts') 


targets = [ 

{ :host => "hatena-a.hatena.ne.jp", 
:service => "hatena-antenna", 
:id => "hatenaantenna", 
:graphname => "availability' }, 


] 


targets.each do |target| 

cmd = "curl 'http://192.168.0.1/nagios/cgi-bin/avail.cgi?host=#{t 
arget[ :host]}&service=#{target[ :service]j&assumeinitialstates=yeSs& 
assumestateretention=yes&assumestatesduringnotrunning=yes&includes 
oftstates=no&initialassumedhoststate=6&initialassumedservicestate= 
6&timeperiod=1last31days '” 

body = ‘#{cmd}. 


graphname = target[ :graphname ] 
count = Hpricot(body).search('td.serviceOK').last.innerText.to _f 


g = Hatena::API::Graph.new(target[:id]，HatenaConsts: :HATENA PASSWD) 
puts "#{target[:host]}/#{target[:service]} #{target[:id]}, 
#{graphname}, #{count}" 
g.post_ data(graphname, :value => count) 
end 
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图 5.1.6 可 用 率 图 表 (使 用 Hatena Graph 制作 ) 
独立 插件 


Nagios 中 具备 了 很 多 监控 用 的 命令 ， 但 却 无 法 监控 未 响应 的 服务 状态 或 
特殊 的 硬件 状态 等 。 这 种 情况 下 有 三 种 方法 : 使 用 NRPE (Nagios 
Remote Plugin Executor) 、 使 用 SNMP、 使 用 独立 插件 。 


使 用 NRPE 可 以 便捷 地 加 入 监控 对 象 ， 但 是 需要 在 每 个 服务 器 中 给 
Nagios 确立 新 的 进程 ， 因 此 Hatena 网 站 中 就 没有 使 用 这 个 办 法 。 而 是 
在 像 MySQL 那样 可 以 进行 远程 访问 的 风 况 下 ， 使 用 独立 插件 进行 监 
控 ; 反之 当 远 程 主机 不 能 访问 时 ， 则 通过 net-snmp 经 由 SNMP 进行 监 
控 。 


下 面 介 绍 三 个 独立 插件 的 示例 ， 即 “MySQL 同步 监控 “MySQL 进程 监 


a 监控 六 。 


5 关于 这 三 个 独立 插件 check_mysqlrep.sh、check_mysql_process.sh、check_memcached.sh， 请 
参考 本 书 最 后 的 补充 信息 


MySQL 同步 监控 ..….. check_mysqlrep.sh 


监控 MySQL 同步 是 否 正确 运行 《代码 清单 5.1.11、 代 码 清单 
5.1.12) 。 该 脚本 对 MySQL 服务 使 用 了 show slave status 命 
令 ， 来 监控 复制 操作 是 否 正常 。 一 旦 发 生 错误 停止 ， 就 会 发 出 相应 
的 错误 通知 。 


代码 清单 5.1.11 部 署 check_mysqlrep.sh 所 需 的 配置 


# 'check_mysqlrep' 
define command{ 
command_ name check mysqlrep 
command_line $USER1$/check mysqlrep.sh -H $HOSTADDRESS$ -u $ARG1$ -p 


} 


代码 清单 5.1.12 ”check_mysqlrep.sh (摘录 ) 


status= $mysqlpath/mysql -u $user -p$pass -P $port -h $host -e 
"Show slave status\G' 2>&1 
if [ $? -et © |] 
then 
echo $status | head -1 
exit $STATE CRITICAL 
fi 


badcount=` echo $status | grep Running | grep No | wc -1.; 
lasterror=‘echo $status | grep Last error. 
IFS=$ IFS OLD 


if [ $badcount -gt 6 ]; then 
echo "NG: $lasterror" 
exit $STATE CRITICAL 

else 


echo 'OK'" 
exit $STATE_ OK 
fi 
exit $STATE UNKNOWN 


MySQL 进程 数 监控 ..….. check_mysql_process.sh 


对 MySQL 正在 处 理 的 查询 数 ( 进 程 数 ) 进行 监控 的 脚本 (代码 清 
单 5.1.13) 。 在 这 个 脚本 中 ， 通 过 向 MySQL 服务 器 发 出 show 
processlist 命令 ， 查 看 MySQL 服务 器 正在 处 理 的 进程 数 ， 另 外 
在 查看 进程 数 的 时 候 也 算 进 了 sleep 状态 的 进程 。 


代码 清单 5.1.13 check_mysqlL_process.sh 〈 摘 录 ) 


processcount= ` $mysqlpath/mysql -u $user -p$pass -P $port -h $host 
-BNe 'show processlist' | awk '{print $5}' | grep -v Sleep | wc -1.; 


echo "processcount: $processcount" 

if [ $processcount -ge $crit ]; then 
exit $STATE CRITICAL 

elif [ $processcount -ge $warn ]; then 
exit $STATE WARNING 

else 
exit $STATE OK 

fi 

exit $STATE UNKNOWN 


memcached 的 监控 ...... check_memcached 


监控 在 内 存 中 运行 的 缓冲 工具 memcached 是 否 正 常 运行 〈 代 码 清 
单 5.1.14) 。 该 脚本 发 布 在 Ian Zilbo 的 主页 6 上 。 在 该 脚本 中 ， 连 
接 指定 的 memcached 服务 器 ， 来 确认 是 否 可 以 正常 地 设 定 或 读 取 
数值 。 


代码 清单 5.1.14 ”check_memcached (摘录 ) 


my $memd = new Cache: :Memcached { 
'servers' => [ "$host:$port" ]， 
'debug' => 6， 
'compress threshold' => 16 _ 600, 


}; 


unless ( $memd->set( $key ， "Nagios Check key", 4*60 ) ) { 
print "unable to set memcached $key"; 
exit $ERRORS{'CRITICAL'}; 


} 


my $val = $memd->get( $key ); 
if ( defined($val) and $val eq "Nagios Check key”) { 
exit $ERRORS{'OK'}; 
} 
else { 
print "unable to get memcached $key/wrong value returned"; 
exit $ERRORS{'CRITICAL'}; 
} 


6 URL http://zibo.com/ 〈 本 书 执笔 时 该 网 站 已 经 无 法 打开 ) 。 


5.1.8 ”小 结 


在 服务 右 监 探 这 种 需要 稳定 运行 的 领域 ,使 用 Nagios 是 很 明智 的 选 

择 。 而 且 Nagios 非常 适合 在 大 规模 环境 中 使 用 ， 因 为 Nagios 提供 了 丰 
富 的 插件 ， 能 够 应 对 各 种 环境 ， 通 过 有 效 使 用 Nagios， 可 以 实现 基础 设 
施 的 稳定 运行 。 


5.2 ”服务 器 资源 的 监控 一 Ganglia 
5.2.1 服务 器 资源 的 监控 


本 太 将 介绍 服务 器 资源 监控 的 相关 内 容 。 前 半 部 分 分 析 监 控 的 作用 等 ， 
后 半 部 分 介绍 笔者 所 应 用 的 监控 的 具体 实施 策略 。 


监控 的 目的 
首先 对 监控 这 种 行为 进行 分 析 整 理 。 监 控 的 目的 用 一 句 话 来 说 就 是 观察 
服务 器 行为 的 变动 。 说 到 观察 行为 的 变动 ， 就 是 指 持续 记录 下 面 这 些 表 
示 服 务 器 状态 的 指标 : 

。 CPU 使 用 率 


。 内 存 使 用 率 


。 load average 
。 网 络 流量 
并 将 其 可 视 化 ， 以 便 更 清楚 地 把 握 变 化 的 具体 情况 及 倾 回 。 


与 需要 及 时 处 理 的 服务 监控 (也 可 以 说 检测 异常 ) 不 同 ， 观 察 行为 的 变 
化 看 似 用 处 不 大 ， 但 是 在 后 面 的 实践 中 就 会 体会 到 其 价值 。 


此 外 ， 诸 如 在 电子 杂志 、 电 视 商 业 广 告 、 大 规模 的 门户 网 站 刊登 了 茶 站 
点 的 广告 的 情况 下 ， 基 于 广告 的 宣传 效果 ， 该 站 点 可 能 会 瞬间 产生 大 量 
的 访问 ， 这 时 ， 直 到 访问 稳定 下 来 之 前 ， 管 理 者 一 定 会 忙 得 不 可 开交 。 
这 样 一 来 ， 一 段 时 间 之 后 谁 还 会 知道 系统 的 瓶颈 究竟 在 哪里 呢 ? 而 如 果 
能 将 过 去 服务 器 资源 的 变化 用 图 表 呈 现 出 来 ， 就 可 以 清楚 地 进行 比较 ， 
从 而 也 更 容易 分 析 。 


另外 ， 在 环境 没有 变化 但 是 观测 的 数值 出 现 波动 的 情况 下 ， 就 可 以 预测 
可 能 会 发 生 故 障 。 举 例 来 说 ， 在 IO 进程 的 等 待 数 持续 增加 居 高 不 下 的 
情况 下 ， 就 可 能 是 磁盘 故障 导致 VO 出 现 了 性 能 瓶颈 。 通 过 使 用 监控 ， 
可 以 及 时 应 对 上 述 状况 。 


5.2.2 检测 工具 的 讨论 


那么 ， 实 际 上 监控 是 怎样 部 车 的 呢 ? 虽 说 从 零 开 始 建立 相关 机 制 也 是 可 
行 的 ， 但 目前 已 经 存在 了 很 多 监控 相关 的 工具 ， 可 以 帮助 我 们 收集 资料 
并 进行 图 表 化 ， 因 此 我 们 可 以 直接 使 用 这 些 现成 的 工具 来 部 蜀 。 下 面 是 
几 个 比较 常用 的 工具 : 


e。 Munin URL http:/munin.projects.linpro.no/ 

e Cacti URL http:/www.cacti.net/ 

e。 Centreon 〈 旧 称 Oreon) URL http:/www.centreon.com/ 
。 Monitorix URL http:/www.monitorix.org/ 


e。 NetMRG URL http:/www.netmrg.net/ 


e collectd URL http://collectd.org/ 


这 里 讲 一 下 笔者 使 用 Munin 和 Cacti 的 感受 。 因 为 Munin 中 存在 非常 多 
的 插件 ， 所 以 即便 不 编写 程序 或 进行 详细 的 设 定 ， 也 可 以 使 多 种 资源 报 
表 图 表 化 。Cacti 的 优点 在 于 清晰 地 划分 了 层 〈 收 集资 料 、 定 义 资料 、 
绘制 图 表 ) 的 结构 ， 以 及 所 有 的 配置 都 可 以 在 浏览 右上 运行 。 


一 般 情况 下 ， 在 增加 或 者 删除 作为 监控 对 象 的 节点 (服务 占 〉 的 时 候 ， 
上 述 两 种 工具 都 必须 进行 改写 配置 的 操作 ， 而 且 图 表 的 一 览 性 也 会 变 
送 ， 因 此 不 适合 用 于 监控 大 量 服务 器 。 


5.2.3 Ganglia ..…….. 面 问 大 量 节点 的 图 表 化 工具 


那么 在 服务 器 集群 中 究竟 要 使 用 什么 工具 呢 ? 这 时 就 该 Ganglia ”出场 
了 。 根 据 Ganglia 的 官网 介绍 ， 最 初 Ganglia 是 以 在 组 或 分 布 式 计算 这 
些 有 大 量 节点 的 环境 中 使 用 为 前 提 而 创建 的 监控 工具 。 以 下 列举 几 点 在 
实际 使 用 中 比较 便利 的 地 方 。 
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首先 第 一 点 ， 增 加 、 删 除 市 点 (服务 占 〉 时 无 需 变更 配置 。 在 增加 的 市 
扩 中 只 需 修改 代理 (Gmond) 就 可 以 了 。 这 样 一 来 ， 在 与 采集 数据 并 进 
行 图 表 化 作业 的 程序 Gmetad〉 通信 时 ， 就 可 以 将 图 表 化 对 象 增加 进 相 
应 的 组 了 。 然 后 活用 组 播 通信 ， 就 没 必 要 配置 IP 地址 了 ， 也 不 用 为 了 
检测 出 厄 扣 而 在 整个 子 网 的 范围 内 进行 SNMP 了 。 


第 二 点 是 图 表 的 一 览 性 强 。 请 看 图 5.2.1。 像 这 样 将 所 有 点 的 图 表 都 
以 网 格 的 方式 表现 出 来 ， 更 易于 进行 宏观 的 比较 。 
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图 5.2.1 Ganglia 
相反 ， 也 列举 几 点 不 便 之 处 。 


首先 ， 图 表 的 种 类 没有 那么 多 。 只 能 制作 CPU 和 内 存 使 用 率 、 流 量 之 
类 的 基本 图 表 ， 种 类 没有 Munin 多 。 另外 在 增加 单独 的 图 表 的 情况 下 ， 
如 果 数 值 是 一 个 种 类 的 话 ， 只 需 运 用 gmetric 命令 来 发送 数值 ， 就 可 以 
简单 地 制作 图 表 。 但 如 果 在 一 个 图 表 中 描述 多 个 数值 的 话 〔 例 如 在 一 个 
图 表 中 对 IO 读 取 和 1/O 写 入 两 方面 进行 描述 ) ， 束 需要 以 Ganglie 自 
身 的 代码 (PHP) 来 实现 ， 因 此 较为 麻烦 。 


第 二 把 ， 图 表 中 指定 显示 时 间 的 选择 项 是 固定 的 ， 只 有 一 小 时 、 一 天 、 


一 周 、 一 个 月 、 一 年 ， 除 此 之 外 都 不 能 选择 。 比 如 “有 大 量 访问 的 那 一 
天 几 扣 到 几 点 的 图 表 ” 就 不 能 显示 ， 也 就 是 说 ， 不 能 灵活 地 显示 菏 个 时 
间 段 的 状况 。 一 般 来 说 ， 因 为 所 有 时 间 段 的 观测 资料 都 被 保存 了 下 来 ， 
所 以 只 需 对 指定 显示 期 间 的 用 户 接口 和 描述 逻辑 稍 加 设 定 ， 就 应 该 能 获 
得 任意 时 间 的 图 表 。 笔 者 使 用 了 Yahoo! UI Librarys 的 日 历 进行 了 上 述 
改造 ， 这 样 就 能 够 方便 地 调 取 所 需 日 期 的 信息 了 。 
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虽然 直接 使 用 Ganglia 还 存在 一 些小 问题 ， 但 是 在 有 大 量 节 点 的 环境 中 
使 用 时 ， 因 为 基本 的 设计 和 相关 机 制 已 经 比较 完善 ， 而 且 该 工具 又 是 使 
用 PHP 编写 的 ， 所 以 整体 的 可 读 性 及 定制 性 非常 强大 。 因 此 使 用 
Ganglia 时 ， 可 以 根据 自己 的 需要 做 出 相应 的 改进 。 接 下 来 ， 我 们 将 介 
绍 增加 图 表 的 方法 。 为 外 顺便 一 提 ， 本 节 中 使 用 的 Ganglia 的 版 本 是 
3.0.5。 


5.2.4 将 Apache 有 的 进程 状态 图 表 化 
作为 同 Ganglia 中 增加 自 定义 图 表 的 示例 ， 下 面 介 绍 一 下 将 Apache 的 
进程 状态 图 表 化 的 方法 。 


知 开 司 Apache 所 附带 的 mod_status 模块 ， 束 可 以 立即 了 解 到 各 httpd 进 
程 的 工作 状态 〈 表 5.2.1) 。 例 如 ， 将 httpd.conf 按照 代码 清单 5.2.1 设 
置 的 话 ， 就 能 够 通过 访问 “http://example.org/server-status ”来 
查看 当前 的 状态 信息 。 而 且 访 问 /server-status?auto 的 话 ， 就 会 返 
回 便于 程序 处 理 的 响应 形式 。 


表 5.2.1 Apache 的 状态 


正在 读 取 请 求 


正在 发 送 啊 应 


应 Keep-Alive 的 要 求 待 机 中 《保持 常 连 接 进程 ， 可 发 送 多 个 文件 ) 


正在 请 求 DNS 


正在 关闭 连接 


正在 写 入 日 志 


里 完成 〈Graceful) 


程 (整理 Idle 的 worker) 


没有 当前 进程 


代码 清单 5.2.1 mod_status 的 设 定 


<Location /server-status> 
SetHandler server-status 


Order Deny,Allow 
Deny from all 


Allow from 192.168.31.6/24 
Allow from 127.0.0.1 
</Location> 


w315 Apache Process Status Last 3days 


proc 


Wed Thu Fri 
(proc: min= 18,.00 avg= 29.35 max= SO,00) 
口 Starting up 国 Reading Request 国 Sendlng Reply 
国 Keepalive (read)j 国 DNS Lookup 国 CLoslng connection 图 Logglng 
国 GracefuLy finishing 口 IdLe cleanup of worker 
回 Waiting for connection 


图 5.2.2 Apache 进程 状态 的 图 表 


在 图 5.2.2 中 ， 每 个 进程 的 状态 用 个 同 的 颜色 进行 了 区 分 过 制作 这 
样 的 图 表 ， 比 起 简单 地 表述 为 "服务 器 楷 忙 ”， 可 b/ 清 相好 看 由 具体 是 由 
Se 超时 等 待 所 造成 的 ， 还 是 由 日 志 写 入 的 IO 等 待 所 造成 的 ， 
一 目 了 然 。 


在 Ganglia 中 增加 图 表 的 方法 


在 Ganglia 中 增加 图 表 时 ， 如 果 要 用 一 个 图 表 描 述 一 个 监控 值 ， 则 只 需 
使 用 gmetric 命令 即 可 。gmetric 将 使 用 组 播 来 播报 监控 值 等 信息 ， 
gmetad 则 会 将 监控 值 存 储 下 来 。 


为 外 ， 将 多 个 监控 值 放 在 一 个 图 表 中 进行 描述 的 情况 下 ， 则 需要 看 手 修 
改 Ganglia 的 源码 。 因 为 各 个 监控 值 是 保存 在 不 同 的 图 表 文 件 中 的 ， 所 
以 要 想 办 法 来 统一 读 取 这 些 监控 值 ， 并 将 其 描述 在 一 个 图 表 中 。 


尝试 增加 多 个 图 表 


以 下 将 实际 尝试 增加 Apache 的 进程 状态 图 表 。 首 先进 行 代码 清单 5.2.1 
的 配置 ， 然 后 访问 “http://localhost/server-status?Auto”， 来 
确认 是 否 能 得 到 应 答 。 


一 旦 得 到 确认 ， 就 会 访问 该 URL 并 处 理 其 应 答 ， 执 行使 用 gmetric 发 送 
监控 值 的 程序 ， 这 里 默认 每 60 秒 获取 一 次 Apache 的 进程 信息 ， 并 使 用 
了 通过 gmetric 发 送 数据 的 示例 程序 。 


9 该 示例 程序 在 源 代码 中 可 以 查看 〈apache-status) 。 本 书 的 源 代码 可 以 通过 以 下 链接 下 载 ; 
URL http://www .ituring.com.cn/book/download/b70de735-d478-466b-96ac-6782db82f642 


至 此 ， 在 Ganglia 的 Web 界面 的 集群 视图 的 Metric 下 拉 菜 单 和 主机 页 
面 视 图 下 ， 应 该 会 显示 个 别 监控 值 的 图 表 (ap-closing 等 以 ap- 开头 ) 。 


接 下 来 ， 对 监控 值 进行 归纳 总 结 ， 输 出 一 个 如 图 5.2.2 所 示 的 图 表 。 这 
里 对 变更 的 文件 进行 简单 的 说 明 。 全 部 的 变更 内 容 请 参考 源 代 码 中 的 
ganglia.patch 。 

e conf.php、 my-conf.php 


在 conf.php 中 引用 (include) 一 个 my-conf.php 文件 ， 有 关 本 次 变 
更 的 配置 项 目 在 my-conf.php 中 修改 


functions.php 


增加 run_apache 函数 ， 通 过 将 相关 参数 传递 到 主机 ， 并 根据 传递 的 
boolean 值 来 决定 是 否 生 成 Apache 图 表 。 这 里 只 是 单纯 地 通过 主机 
名 进行 判断 


graph.php 


变更 较 多 行 的 是 graph.php， 但 是 并 不 复杂 。 这 里 只 是 用 RRDtool 
汪 法 发 出 了 生成 图 表 的 指示 ， 因 为 站 取 的 数据 较 多 ， 所 以 行 数 也 有 
之 增加 


templates/default/host_view.tpl、host_view.php 


定制 主机 视图 。 在 模版 中 通过 “functional” 标 签 增加 插入 点 ， 在 
host_view.php 中 ， 当 run_apache 为 真 时 ， 就 将 “functional” 标 签 分 配 
到 显示 Apache 图 表 的 HIML 文件 中 


header.php 


在 集群 视图 的 Metric 下 拉 沫 单 中 显示 Apache 的 图 表 
(Apache_Proc_report) 


其 他 的 自 定义 图 表 


除了 上 述 列举 的 图 表 之 外 ， 还 有 其 他 一 些 有 用 的 图 表 。 和 之 前 的 
Apache 进程 状态 的 图 表 类 似 ， 只 需 目 定义 Ganglia 束 可 以 生成 ， 大 家 不 
妨 答 试 一 下 。 


MySQL 的 各 种 缓存 (查询 缓存 和 密 钥 缓存 等 ) 命中 率 的 图 表 (图 
5.2.3 @) 


MySQL 每 秒 处 理 的 查询 数 的 图 表 (图 5.2.3 @) 


MySQL 的 SELECT、INSERT、UPDATE、DELETE 查询 比例 的 
图 表 (图 5.2.3 @) 


MySQL 的 InnoDB 的 表 空 间 剩余 量 的 图 表 (图 5.2.3 @) 
MySQL 连接 数 的 图 表 (图 5.2.3 四) 
Tomcat 的 堆 内 存 使 用 状况 的 图 表 (图 5.2.3 @) 


全 各 种 缓存 的 命中 率 合 单位 时 间 的 查询 数 


db5il 08 Cache Hit Ratio last 3days 3 db511 DB Query Per Second last 3days 
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Sat Sn men 
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人 连接 数 Tomcat 的 堆 内 存 使 用 情况 
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5.3 高效 的 服务 器 党 理 一 Puppet 
5.3.1 实现 高 效 的 服务 器 管理 的 工具 Puppet 


由 于 现行 的 服务 正 逐 步 趋同 于 大 规模 化 ， 随 之 而 来 的 是 服务 器 台数 和 服 
务 露 管理 费用 的 增加 。 而 如 果 将 提供 个 人 服务 的 一 人 台 到 数 合 不 等 的 服务 
融 的 管理 方法 应 用 到 企业 的 数 百合 到 数 千 台 不 等 的 服务 器 的 管理 上 ， 惑 
需要 采取 适当 的 手段 才能 完成 。 为 此 ， 对 于 已 成 规模 的 企业 服务 器 管理 


来 说 ， 不 仪 需要 局 效 、 准 确 地 维持 平衡 的 运行 环境 ， 而 且 还 可 能 需要 将 
配置 的 变更 想 办 法 同步 到 所 有 服务 器 上 。 
Puppet "是 一 个 能 够 实现 高 效 地 管理 服务 器 的 工具 ， 并 且 适 用 于 大 规模 


的 运行 环境 。 通 过 使 用 Puppet， 原 本 需要 手动 登录 各 个 服务 器 进行 的 操 
作 现 在 基本 上 都 可 以 目 动 完成 了 。 例 如 : 


10 URL http://puppet.reductivelabs.com/ 


。 投入 新 型 服务 器 
。 变更 已 有 服务 器 的 配置 


9 2 以 上 两 种 工作 将 变 得 更 加 轻松 。 而 且 还 能 避免 因 人 为 
斑 久 A 而 态 进行 某 些 配 置 。 


本 节 中 所 介绍 的 内 容 以 CentOS 5.0 的 Puppet 0.24.4 版 本 为 准 。 


5.3.2 ”Puppet 的 概要 


Puppet 是 由 Reductive Labs 开发 ， 使 用 Ruby 语言 描述 的 开源 服务 器 自 
动 化 管理 工具 。 


在 Puppet 的 各 服务 器 Manifest 〈 配 置 文件 ) 中 ， 各 个 Manifest 通过 类 进 

行 定义 ， 而 且 定 义 新 的 Manifest 时 还 可 以 继承 已 经 定义 好 的 旧 的 

Manifest 等 ， 因 此 其 具有 面 癌 对 象 的 灵活 性 的 特性 。Puppet 于 2003 年 

最 近 一 两 年 得 到 了 越 来 越 多 的 关注 ， 国 内 也 有 一 些 大 企业 引 
Puppet 。 


Puppet〈 图 5.3.1) 通过 在 各 个 服务 器 上 运行 的 puppetd 及 管理 服务 器 上 
运行 的 puppetmasterd 这 两 个 守护 程序 来 进行 运作 。 每 个 服务 器 的 
Dipped < 会 定期 (默认 30 分 钟 ) 问 puppetmasterd 发 出 询问 ， 把 得 出 的 

论 与 现状 进行 对 比 ， 以 更 新 相应 的 服务 器 配置 。 此 时 ， 配 置 文件 可 以 
a puppetmasterd 下载。 当然， 也 可 以 不 进行 定期 的 询问 ， 而 是 直接 运 
行 puppetd 命令 ， 以 大 认 并 更 新 相应 的 服务 器 配置 。 另外 ， 通 过 在 
ee 服务 器 上 执行 puppeturn 命令 ， 也 可 以 更 新 相应 的 服务 器 
配置 。 


Puppet 服务 器 
( puppetmasterd ) 


各 节点 的 
配置 文件 


通过 puppetd 进行 访问 
并 更 新 相应 的 配置 


图 5.3.1 使 用 Puppet 管理 服务 器 


puppetd 和 puppetmasterd 之 间 的 通信 还 采用 了 SSL 加 密 设 计 以 确保 安 
全 


5.3.3 Puppet 的 配置 


本 市 将 以 Apache 的 Web 服务 需 的 设 定 为 例 ， 来 讲述 Puppet 配置 的 概 
要 。Puppet 的 配置 可 分 为 以 下 两 个 部 分 : 


Puppet 目 身 的 配置 〈/etcpuppetpuppet.conf ) 
部 署 由 Puppet 设 定 的 服务 器 配置 内 容 的 配置 文件 (Manifest ) 


这 里 对 Manifest 的 内 容 进行 进一步 说 明 。 在 Puppet 的 Manifest 中 ， 节 
点 《作为 puppetd 的 配置 对 象 的 服务 器 ， 中 会 被 分 配对 各 服务 器 的 配置 
进行 定义 的 类 。 此 外 ， 类 还 能 像 面向 对 象 的 语言 那样 继承 其 他 类 。 该 配 
置 通常 保存 在 /etcwpuppetmanifests/ 中 。 若 将 全 部 的 配置 都 集中 在 一 个 
文件 进行 描述 的 话 ， 束 会 导致 文件 变 得 很 大 ， 所 以 建议 根据 服务 器 的 功 


能 等 进行 有 效 的 划分 。 
点 


首先 ， 对 代表 各 个 服务 器 的 节点 的 配置 内 容 进 行 定 义 。 这 里 并 不 直接 进 

行 具体 的 配置 操作 ， 而 是 通过 指定 配置 集合 的 类 使 其 自动 完成 这 些 配置 

操作 。 一 个 节点 能 够 指定 多 个 类 。 代 人 码 清单 5.3.1 中 就 为 配置 对 象 的 服 

务 器 〈testserver) 通过 Apache 的 mod_perl 模块 指定 了 Web 服务 器 的 类 
Capache-mod perl) 。 


代码 清单 5.3.1 ”市 点 定义 文件 (nodes.pp) 


node testserver { 
include apache-mod perl 


} 


类 的 定义 


类 是 具体 配置 的 集合 。 通 过 继承 其 他 的 类 ， 能 够 统一 定义 具有 类 似 功 能 
的 服务 器 的 相同 配置 。 


代码 清单 5.3.2 所 显示 的 apache-mod_perl 类 中 定义 了 各 种 配置 项 目 ， 如 
是 否 安装 了 各 种 rpm 软件 包 (httpd、mod_perl) ，httpd.conf 是 否 是 最 
新 版 ，httpd 是 否 已 经 被 启动 等 。 接 下 来 ， 对 具体 的 配置 内 容 进行 说 

明 。 


通过 代码 清单 5.3.2 @ 的 package 的 声明 ， 可 以 发 现 这 里 指定 安装 了 
httpd、mod perl、perl-libapreq2 的 软件 包 (ensure => installed 
) 。 如 果 还 未 安装 ， 则 会 使 用 包 管 理 系统 自动 进行 安装 。 


通过 代码 清单 5.3.2 @ 的 configfile 的 声明 ， 可 以 配置 httpd.conf 及 
sysconfig/httpd 这 两 个 文件 。require => Package["httpd- 
mod_perl"] 语句 表明 在 软件 包 被 安装 后 ， 就 开始 执行 文件 的 分 发 行 
为 。configfile 并 非 Puppet 中 默认 配置 的 声明 ， 而 是 由 后 面 叙 述 的 
defined 的 声明 扩充 而 来 的 。 实 际 上 被 分 发 的 文件 的 地 址 是 由 configfile 
声明 中 的 source 属性 指定 的 。puppetmasterd 同样 也 兼容 文件 服务 器 ， 


可 以 将 指定 的 文件 分 发 到 目标 服务 器 中 。 


通过 代码 清单 5.3.2 @ 的 user 的 声明 ， 可 以 对 apache 的 用 户 进行 定义 。 
从 其 官方 文档 中 可 以 得 知 ， 这 里 是 可 以 配置 password 的 ， 但 现行 的 版 
本 中 被 注释 挥 了 ， 因 此 需要 逐 台 为 服务 器 设 定 password。 


通过 代码 清单 5.3.2 @ 的 service 的 声明 ， 可 以 发 现 这 里 启动 了 httpd 进 
程 ， 并 定义 了 在 启动 时 通过 chkconfig 执行 。 通 过 subscribe => 
[File[$%path]，File[gsysconfigpath]，Package[ 'httpd ' ] ， 
Package['mod_perl'] ] 的 描述 ， 可 以 在 安装 及 更 新 包 ， 以 及 更 新 配 
置 文件 时 自动 重启 httpd 进程 。 男 外 通过 enable => true 的 描述 ， 可 
以 在 服务 器 重启 时 上 自动 启动 服务 。 而 在 手动 进行 管理 时 ， 往 往 会 忘记 将 
其 设 定 为 自动 启动 。 


代码 清单 5.3.2 加 的 file 声明 中 定义 了 /ver/www 目录 的 属性 。 


代码 清单 5.3.2 ”类 定义 文件 (apache-mod_perl.pp) 


class apache-mod perl { 
package { httpd: © 
ensure => installed 


} 


package { mod_ perl: 
ensure => installed 


} 


package { perl-libapreq2: 
ensure => installed 


} 


$path = '/etc/httpd/conf/httpd.conf' 
configfile { "$path": <*@ 
ource => "/apache-mod perl/httpd.conf", 
ode => 644， 
equire => Package["httpd-mod _ perl1"] 
} 


$sysconfigpath = '/etc/sysconfig/httpd' 
configfile { "$sysconfigpath": 
source => "/apache-mod perl/sysconfig.httpd", 
mode => 644， 
require => Package["httpd-mod perl"] 


} 


user { apache: «© 


ensure => 

uid => 48， 

gid => 48 
} 


present, 


service { httpd: <*@ 
hasrestart => true, 


hasstatus 
ensure => 
subscribe 
enable => 


} 


file { <e 


"/var/www": 


} 
} 


=> true, 

running, 

=> [ File[$path], File[$sysconfigpath], Package['httpd-mod_pe 
true 


owner => apache, group => apache, mode => 755; 


确认 配置 是 否 


将 这 些 厄 点 


有 效 


点 定义 和 类 定义 文件 读 入 puppetmasterd， 在 testserver 中 按 以 


下 方式 运行 puppetd，testserver 就 会 启动 Apache 的 mod_per 模块 ， 使 其 
作为 Web 服务 器 正确 运行 。 假 设 puppetmasterd 运行 的 服务 器 的 IP 是 
192.168.0.1， 即 : 


puppetd -o -V 


--Server 192.168.0.1 


硅 正确 地 进行 了 配置 ， 就 会 得 到 以 下 输出 : 


info: Caching 


configuration at /var/lib/puppet/localconfig.yaml 


notice: Starting configuration run 
notice: Finished configuration run in 1.27 seconds 


5.3.4 配置 文件 的 语法 

Puppet 配置 文件 的 语法 是 Puppet 独 目 定义 的 ， 大 致 类 似 Ruby 的 语法 。 
下 面 对 其 进行 简单 的 讲解 。 在 官方 文档 中 还 有 详细 的 说 明 ， 有 兴趣 的 话 
可 以 参考 。 

资源 的 定义 


配置 文件 等 的 资源 (Resource) 的 集合 ， 包 含 类 (Class) 、 了 函数 
CDefinition ) 、 节 点 (Node) 三 个 种 类 。 


。 类 


类 可 以 定义 多 个 资源 的 集合 。 在 一 个 主机 上 只 能 创建 一 个 类 的 实 
例 。 下 面 的 unix 类 中 定义 了 /etc/passed 文件 与 /etc/shadow 文件 的 
属性 : 


class unix { 
file { 
"/etc/passwd": owner => root, group => root, mode => 644; 
"/etc/shadow": owner => root, group => root, mode => 446， 


} 
} 


也 可 以 继承 其 他 类 ， 只 修改 其 中 的 一 部 分 。 例 如 像 下 面 这 样 将 文件 
所 属 组 由 root 变更 为 wheel : 


class freebsd inherits unix { 
File["/etc/passwd"|] { group => wheel } 
File["/etc/shadow"|] { group => wheel } 


} 


函数 


对 变量 进行 操作 时 可 以 定义 相应 的 函数 。 函 数 与 类 不 同 ， 不 可 以 进 
行 继 承 操作 。 男 外 在 一 个 主机 上 可 以 定义 多 个 函数 ， 这 也 是 函数 与 


类 的 不 同 后。 


代码 清单 5.3.3 中 定义 了 configfile 函数 ， 设 定 了 一 些 参数 的 默认 
值 。 


代码 清单 5.3.3 ”configfile 函数 的 定义 和 默认 值 的 设 定 


define configfile($owner = root, $group = root, $mode = 644， 
$source, $backup = false, $recurse = false, $ensure = file) { 
file { $name: 
mode => $mode, 
owner => $owner， 
group => $group， 
backup => $backup, 
recurse => $recurse, 
ensure => $ensure, 
source => "puppet://$server/config$source" 
} 
} 


$path = '/etc/httpd/conf/httpd.conf' 
configfile { "$path": 
source => "/apache-mod perl/httpd.conf", 
mode => 644， 
require => Package["httpd-mod_ perl"] 
} 


节点 


节点 中 定义 的 内 容 与 类 相同 ， 而 且 能 够 在 真正 的 服务 器 上 生效 。 可 
以 使 用 hostname 作为 主机 的 标识 符 ， 而 不 使 用 IP 地 址 。 以 下 是 将 
apache-mod_perl 类 的 设 定 同步 到 testserver 服务 器 上 : 


node testserver { 
include apache-mod perl 


} 


各 个 类 的 实体 资源 可 以 根据 Type《〈 类 型 ) 进行 定义 。Type 即 fle( 文 
件 ) 或 package《〈 包 ) 等 具体 的 设 定 项 目 。 


file 

在 “file” 中 可 以 定义 文件 的 属性 。 通 0 sources， 可 以 从 
puppetmasterd 上 下 载 文件 。 另外 ， 过 定义 content， 还 可 以 直接 
写 入 内 容 ， 或 者 使 用 模板 功能 。 


以 下 指定 了 /etc/passwd 文件 的 所 有 者 与 权限 : 


file { 
"/etc/passwd": owner => root, group => root, mode => 644; 


} 


package 


“package” 中 定义 了 包 。 通 过 指定 ensure =>installed ， 可 以 在 
没 安装 包 的 情况 下 ， 在 操作 系统 上 安装 这 些 包 。 例 如 在 Red Hat 系 
筑 上 上 ， 通过 yunm 命令 安装 rpm 包 ; 在 Debian 系统 上 ， 通 过 apt- 

get 个 命令 安装 deb 包 等 ， 可 以 根据 操作 系统 的 不 同 进行 包 的 安装 。 


以 下 是 安装 mysql 包 的 定义 : 


package { mysql: 
ensure => installed, 


} 


eXeC 


在 “exec” 中 可 以 执行 任意 的 命令 。 例 如 在 下 例 中 ， 更 新 完 iptables 
的 配置 文件 后 ， 会 重启 iptables。 


exec { "/etc/init.d/iptables stop && /etc/init.d/iptables start": 
subscribe => File["/etc/sysconfig/iptables"|], 
} 


service 


“service” 中 定义 了 服务 (进程 》。 具 体 可 以 定义 服务 的 局 动 状态 及 
重启 时 的 行为 。 


以 下 代码 定义 了 httpd 服务 的 运行 ensure=>running ) 以 及 在 操 
作 系统 启动 时 自动 启动 服务 (enable=>true ) : 


service { httpd : 
ensure => running, 
enable => true 


} 


对 各 个 服务 器 的 配置 进行 微调 


各 要 针对 各 个 服务 器 对 设 定 项 目 进行 微调 ， 可 以 使 用 Puppet 的 
facterlibrary 变量 ， 来 完成 配置 的 调整 工作 。 例 如 通过 访问 
$operatingsystem 变量 ， 可 以 在 Solaris 和 default 的 情况 下 选择 不 同 的 文 
件 配置 路 径 。 


path => $operatingsystem ? { 
solaris => "/usr/local/etc/ssh/sshd config", 
default => "/etc/ssh/sshd config" 


在 命令 行 上 执行 facter 命令 ， 可 以 浏览 除 $operatingsystem 以 外 的 各 
变量 的 使 用 方法 。 


资源 间 的 依赖 关系 


通过 定义 资源 间 的 依赖 关系 ， 可 以 指定 配置 生效 的 顺序 ， 以 及 配置 生效 
所 需 重启 的 服务 。 例 如 在 更 新 httpd.onf 后 ， 就 需要 重启 httpd 以 使 配置 


生效 。 这 样 做 的 目的 是 为 了 避免 配置 文件 更 新 后 因为 没有 重 局 服务 而 造 
成 配置 无 效 的 情况 发 生 。 


在 下 面 的 例子 中 ， 通 过 在 service 函数 中 定义 subscribe 变量 的 值 ， 设 定 
了 /etc/httpd/conf/httpd.conf 配置 文件 与 httpd 服务 的 依赖 关系 。 通 过 这 
样 的 配置 ， 在 使 用 Puppet 时 知 发 生 /etc/httpd/conf/httpd.conf 配置 文件 更 
新 的 情况 ， 就 会 目 动 重启 httpd 服务 以 使 更 新 生效 。 


$path = "/etc/httpd/conf/httpd.conf" 
configfile { "$path": 
source => "/apache-mod perl/httpd.conf", 
mode => 644， 
} 


service { httpd: 
hasrestart => true, 
hasstatus => true, 
ensure => running, 
subscribe => [ File[ $path] ]， 
enable => true 


通过 模板 完成 Manifest 文件 的 定义 


Puppet 的 特点 就 是 可 以 根据 用 途 ， 使 用 模板 自 定 义 复杂 的 Manifest 文 
件 ， 并 同时 进行 配置 的 分 发 操作 。 在 此 以 DualMaster( 双 问 同 步 ) 
MySQL 类 与 iptables 类 为 例 进行 说 明 。 


MySQL 的 配置 文件 (my.cnf) ， 如 server_id 和 同步 的 设 定 、 双 辣 
同步 的 设 定 等 ， 在 不 同 的 服务 器 中 这 些 配 置 都 是 不 同 的 。 因 此 ， 通 
过 使 用 模板 功能 ， 可 以 让 描述 工作 变 得 更 简洁 。 在 该 类 中 ， 通 过 在 
各 节点 的 定义 中 传递 参数 来 调整 配置 文件 。 

首先 ， 在 代码 清单 5.3.4 中 定义 mysql-master-conf 函数 ， 接着， 在 


代码 清单 5.3.5 的 节点 的 配置 中 设 定 server_id、master_host 等 参数 
言 息 ; 最 后 ， 在 代码 清单 5.3.6 的 multimaster-my.cnf 中 定义 模板 。 


进行 以 上 配置 后 ， 运 行 puppetd， 模 板 就 可 以 根据 server id 或 
master_host 等 传递 的 参数 值 ， 生 成 相应 的 配置 文件 ， 完 成 实际 的 服 
务 莫 的 配置 。 在 此 需要 注意 的 是 ， 这 里 之 所 以 不 是 “server-id” 而 

是 “server_id”， 是 因为 Puppet 的 语言 规范 不 允许 参数 中 出 现 “-”。 


代码 清单 5.3.4 。” mysql-master-conf 函数 


define mysql-master-conf($path, $server id, $master host = false， 
$auto increment increment = false , $auto increment 
_offset = false, $log bin 
$innodb = false, $replace 
templatefile { $path: 
source => "mysql/multimaster-my.cnf.erb", 


false, $log slave updates = false, 
true) { 


notify => Service[mysqld]， 
replace => $replace 
} 
} 


代码 清单 5.3.5 mysqldb 节点 的 定义 


node mysqldb { 
mysql-master-conf {"my.cnf": 
path => "/etc/my.cnf", 
server id => "16866861", 
master _ host => "192.168.1.1", 
auto increment increment => "16", 
auto increment offset > 


代码 清单 5.3.6 multimaster-my.cnf (摘录 ) 


server-id = <%= server id %> 
log-bin 


<%= master host %> 
repli 


master-host 
master-user 


<% if auto increment increment then -%> 

auto increment increment = <%= auto increment increment %> 
<% end -%> 

<% if auto increment offset then -%> 

auto increment offset = <%= auto increment offset %> 

<% end -%> 


iptables 类 


在 LVS【〔 负 和 载 均衡 集群 ， 中 根据 DSR 动 态 路 由 协议 ) 进行 
iptables 设 定时 ， 需 要 根据 主机 的 用 途 定 义 不 同 的 VIP。 因 此 这 里 
每 个 VIP 的 设 定 文件 都 不 同 ， 若 一 个 一 个 地 去 准备 的 话 就 比较 繁 
琐 ， 而 通过 在 iptables 类 中 使 用 模板 功能 ， 就 可 以 在 定义 节点 时 传 
递 相应 的 参数 ， 生 成 恰当 的 配置 文件 。 


node foobar { 
iptables-lvs-conf {"iptables": 
path => "/etc/sysconfig/iptables", 
lvs_iptables => "59.106.1608.97:868" 
} 
} 


以 上 在 iptables-lvs-conf 这 个 独立 的 函数 中 完成 了 iptables 的 设 定 。 
path 变量 是 文件 的 配置 路 径 ，lvs_iptables 变量 是 iptables 中 的 内 
容 。 在 这 里 定义 为 了 “59.166.168.97:86”， 实 际 上 执行 的 是 : 


/sbin/iptables -t nat -A PREROUTING -d 59.166.168.97 -p tcp -j REDIREC 


另外 ， 如 果 定 义 为 “59.166.168.97:860:81”， 实 际 就 会 执行 : 


/sbin/iptables -t nat -A PREROUTING -d 59.166.168.97 -p tcp -m tcp --d 


在 代码 清单 5.3.7 中 定义 了 iptables-lvs-conf 函数 。 这 里 通过 source 
变量 定义 了 模板 ， 通 过 notify 变量 指定 了 在 模板 更 新 时 重启 
iptables。 templatefile 是 通过 functions/utils.pp 定义 的 函数 ， 会 生成 
相应 的 模板 。 


在 代码 清单 5.3.8 中 定义 iptables 类 。 


configifle 中 包含 的 iptables_check.sh 是 检测 是 否 设 定 了 iptables 的 
命令 。 由 于 如 果 在 文件 配置 的 路 径 中 指定 了 原本 就 不 存在 的 目录 就 
会 造成 错误 ， 因 此 这 里 设置 为 了 /usr/bin。 在 exec 的 定义 中 ， 通 过 
订阅 (Subscribe〉configifle 生成 的 文件 ， 知 发 生 了 
sysconfig/iptables 的 变更 ， 就 会 进行 重启 操作 。 


最 后 的 service 定义 指定 了 执行 iptables。 为 了 监控 iptables 服务 的 
状态 ， 使 用 了 《在 代码 清单 5.3.8 的 @ 处 ) 配置 好 的 
iptabjes_check.sh 。 


代码 清单 5.3.9 是 模板 文件 。 根 据 传递 的 参数 ， 生 成 适当 的 文件 。 
里 说 比较 理想 的 方式 古 将 需要 传递 的 参数 以 数组 的 形式 传递 ， 但 这 
ee 的 语言 规范 站 ， 因 此 需要 将 参数 断 开 为 多 个 参数 分 
别 进 行 传输 。 


代码 清单 5.3.7 ”iptables-lvs-conf 函数 


define iptables-lvs-conf($path, $lvs iptables = []) { 
templatefile { $path: 
source => "iptables/lvs iptables .erb", 
notify => Service[iptables] 


} 
} 


代码 清单 5.3.8 ”iptables 类 


class iptables { 
package { iptables: 
ensure => installed 


} 


$path = '/etc/sysconfig/iptables' 
$binpath = '/usr/local/hatena/bin' 


$checkcmd path = '/usr/bin/iptables check.sh' <@ 
configfile { "$checkcmd path": 

owner => root, 

group => root, 

mode = 755., 

source => "/iptables/iptables check.sh", 


} 


exec { "/etc/init.d/iptables stop && /etc/init.d/iptables start": 
subscribe => File["/etc/sysconfig/iptables"], 
refreshonly => true, 


} 


service { "iptables": 
status => "$checkcmd path",， 
start => "/etc/init.d/iptables start", 
ensure => running, 
} 
} 


代码 清单 5.3.9 templates/iptables/lvs_iptables.erb 


# Generated by puppet 

*nat 

:PREROUTING ACCEPT [61806:3714608]] 

:POSTROUTING ACCEPT [42:5669] 

:OUTPUT ACCEPT [42:5669] 

<% lvs iptables.split(/,/).each do |lvs params| -%> 

<% lvs = lvs params.split(/:/) -%> 

-A PREROUTING -d <%= lvs[8] %> -p tcp -j REDIRECT<%= lvs.length > 2 


? " --dport #{lvs[2]}" : "" %><%= lvs.length > 1? " --to-ports 
#{lvs[1]}"” : "" %> 

<% end -%> 

COMMIT 

# Completed 


1 puppet 的 语言 规范 中 规定 了 传递 给 模板 的 参数 仅 限于 符合 要 求 的 字符 串 。 


5.3.5 ”通知 操作 日 志 


puppetd 确认 服务 器 的 配置 后 ， 会 根据 需要 变更 ( 没 必要 时 无 需 变更 ) 
该 服务 器 的 配置 。 这 时 变更 的 内 容 将 输出 到 syslog。 也 可 以 在 邮件 或 日 
志 中 进行 通知 。 


tagmail 


tagmail 的 功能 是 在 各 服务 器 中 使 用 Puppet 时 ， 通 过 邮件 发 送 日 
志 。 例 如 ， 在 /etc/puppet/tagmail.conf 中 存在 如 下 记录 : 


all: userli@example.com 
apache: user2@example.com 


all 是 通知 全 部 的 变更 ， 通 过 指定 apache 等 的 标签 ， 可 以 将 与 标签 
相关 联 的 变更 进行 通知 。 标 签 能 够 在 每 个 类 中 定义 标签 名 。 男 外 ， 
因为 类 名 默认 是 标签 名 ， 所 以 还 可 以 对 类 名 进行 指定 。 


一 一 puppetmaster.log 


var/log/puppet/puppetmaster.log 中 会 输出 运行 结果 。 但 因为 此 处 的 
音 误 信 息 不 是 十 分 准确 ， 所 以 调试 程序 时 请 不 要 过 多 使 用 。 


report 

以 YAML 的 形式 输出 到 /var/lib/puppet/reports 中 。 每 次 生效 都 会 生 
成 一 个 文件 ， 不 生效 就 什么 都 不 会 生成 。 可 以 利用 其 他 工具 进行 处 
理 ， 并 生成 图 表 。 

一 一 puppetd 中 的 日 志 


像 下 面 这 样 在 各 服务 器 中 直接 启动 puppetd， 也 能 够 运行 puppetd。 


% sudo /usr/sbin/puppetd --server=192.168.0.1 -0o -Vv --waitforce 66 


因为 此 时 的 日 志 会 被 详细 地 和 输出， 因此 在 调整 配置 的 时 候 ， 这 种 方 
法 束 更 具 参 考 性 。 邦 外 ， 通 过 使 用 - -noop 参数 ， 可 以 在 不 重 写 配 
置 文件 的 情况 下 确认 之 前 进行 的 设 定 。 


5.3.6 ”运用 


在 Puppet 中 ， 因 为 大 多 数 的 配置 文件 都 能 够 简单 地 进行 更 新 ， 所 以 配 
置 错 误 的 影响 也 比较 大 。 例 如 在 sshd_config 配置 错误 时 ， 会 造成 无 法 
登录 系统 等 故障 。 正 因 如 此 ， 在 进行 大 规模 的 变更 时 ， 采 用 能 够 方便 地 
撤销 修改 的 方法 就 显得 尤为 重要 。 


为 此 可 以 考虑 以 下 方法 : 


。 在 应 用 到 所 有 服务 器 之 前 ， 首 先 在 部 分 服务 器 上 进行 测试 。 平 时 将 
puppetd 的 自动 更 新 设 为 无 效 ， 在 测试 用 的 服务 器 中 运行 puppetd， 
如 果 没 有 问题 ， 再 将 puppetrun 应 用 到 所 有 的 服务 器 上 


采用 Subversion 对 配置 文件 进行 管理 。 通 过 将 /etc/puppet 目录 下 与 
Puppet 相关 联 的 配置 文件 全 部 托管 在 Subversion 中 进行 管理 ， 就 能 
实现 配置 文件 的 版 本 管理 。 据 此 可 以 追踪 过 去 的 变更 记录 ， 在 配置 
不 当 的 情况 下 还 能 回 深 到 之 前 的 配置 版 本 。 而 且 ， 还 可 以 对 
Subversion 不 同 版 本 分 支 的 快照 记录 使 用 make 命令 ， 在 配置 生效 
前 ， 使 用 --noop 参数 在 Puppet 中 测试 这 些 快照 的 应 用 效果 ， 事 先 
检查 配置 文件 的 语法 是 否 存 在 问题 


5.3.7 ”自动 配置 管理 工具 的 利 与 浆 
从 早先 的 cfengine 到 近期 的 Puppet， 这 些 都 是 著名 的 开源 (OSS) 自动 
配置 工具 。 这 些 工 具 虽 然 看 起 来 非常 方便 ， 但 在 实施 时 可 能 会 遇 到 一 些 


问题 。 


目 动 配置 工具 听 起 来 确实 是 个 很 不 错 的 选择 ， 但 实际 使 用 时 却 非 常 麻 
烦 。 以 下 整理 了 使 用 该 工具 时 可 能 会 遇 到 的 状况 。 


从 本 质 上 来 说 这 并 不 是 什么 创新 的 东西 


目 动 配置 工具 只 是 将 原 有 手动 配置 的 工作 自动 化 ， 仪 此 而 已 。 当 然 
人 们 通常 不 想 改 变 目 前 已 存 的 工作 流程 


要 记 的 东西 很 多 ， 非 闻 及 烦 


在 使 用 自动 配置 工具 配置 应 用 程序 的 时 候 ， 不 仅 要 记 住 应 用 程序 的 
配置 方法 ， 还 必须 为 应 用 程序 的 配置 做 一 些 准 备 工 作 。 常 常 让 人 怀 
疑 这 么 做 有 价值 


0 
出 现 


通常 在 上 自动 配置 工具 托管 的 配置 文件 中 ， 不 能 人 为 地 修改 这 些 配置 
文件 ， 如 行 修改 ， 就 极 易 导 致 故 隐 。 例 如 某 天 你 在 运行 自动 配置 工 
具 时 ， 无 意 间 履 关 了 手动 修正 的 部 分 ， 这 时 不 仅 系统 败 病 了 ， 目 动 
配置 工具 也 可 能 没 法 运行 了 ， 这 种 情况 很 有 可 能 发 生 。 而 且 一 且 发 
生 ， 处 理 起 来 就 会 非常 玉手 。 当 遇 到 此 类 故障 时 ， 根 本 没有 充分 的 
时 间 去 调整 配置 ， 如 果 处 理 故 障 的 人 员 对 这 些 配置 参数 理解 得 不 够 
充分 ， 那 勿 忙 修改 可 能 会 埋 下 隐患 


这 样 看 来 ， 目 动 配置 工具 的 浆 闪 好 像 太 大 了 ， 但 为 了 对 大 量 服务 器 进行 
高 效 的 管理 ， 目 动 配置 工具 就 很 有 存在 的 必要 。 例 如 在 变更 成 日 上 千 合 


服务 器 的 sshd_config 的 配置 文件 时 ， 利 用 配置 工具 就 可 以 轻松 地 完成 


操作 ， 这 真是 提高 效率 的 法 宝 啊 。 


在 应 用 这 种 自动 配置 工具 时 ， 哪 里 自动 哪里 手动 是 个 重要 的 问题 。 然 
而 ， 


这 个 问题 并 没有 什么 一 般 性 的 标准 ， 通 党 要 根据 应 用 自动 配置 工具 


的 设备 规模 和 管理 人 员 的 干劲 来 决定 。 


我 们 的 目标 是 : 使 用 自动 配置 工具 ， 并 维持 民 好 的 运行 状态 。 通 常 比较 
适合 使 用 自动 配置 工具 的 有 以 下 两 种 情况 : 


设备 的 台数 很 多 时 
手动 配置 容易 产生 芷 漏 时 


Daemontools 


5.4 守护 进程 的 工作 管理 
5.4.1 ”守护 进程 的 异常 终止 


通常 在 系统 启动 时 都 会 自动 启动 守护 进程 (Daemon) ， 但 万 一 在 服务 

器 运行 过 程 中 守护 程序 意外 终止 ， 那 会 造成 多 么 严重 的 事态 呢 ? 帮 Web 
服务 器 、 邮 件 服务 器 等 服务 意外 终止 的 话 倒是 很 容易 察觉 ， 但 察觉 守护 
进程 等 的 异常 就 比较 困难 。 


虽然 在 发 生意 外 情况 时 ， 有 一 些 自动 重启 的 安全 措施 “ ， 但 /etc/init.d 
中 大 多 数 的 局 动 脚本 可 能 者 不 具备 重 局 的 功能 。 此 外 ， 在 对 各 个 启动 肢 
本 进行 进程 监控 的 同时 添加 重新 局 动 的 处 理 是 比较 麻烦 的 。 


2 例如 MySQL 所 附带 的 mysqld_safe 脚本 等 。 
这 样 ， 一 个 叫 作 daemontools * 的 工具 就 应 势 而 出 了 。 该 工具 解决 了 守 


护 进 程 的 运行 管理 问题 。 本 节 中 我 们 就 来 介绍 一 下 daemontools (0.76 
版 本 ) 的 使 用 诀 窑 。 


13 URL http://cr.yp.to/daemontools.html 和 daemontools 类 似 的 工具 还 有 
runit (http://smarden.org/runit/ ) 。 


5.4.2 daemontools 


daemontools 工具 是 一 个 很 实用 的 软件 包 ， 它 负责 管理 守护 进程 的 开 
台 、 结 束 、 重 新 局 动 ， 以 及 进程 异常 终止 时 的 自动 启动 等 工作 。 


daemontools 是 通过 若干 个 程序 联合 对 守护 进程 进行 监控 和 管理 的 ， 有 具 
体 请 参阅 图 5.4.1。 


svscanboot 


图 5.4.1 daemontools 的 概要 图 

首先 ，svscanboot 启动 svscan。svscan 对 指定 的 目录 (默认 是 /service ) 
进行 监控 ， 在 增加 了 新 的 守护 进程 的 情况 下 启动 svscanboot。supervise 
运行 run 文件， 通过 run 文件 启动 守护 进程 。 因 为 0 A 能 对 
一 个 守护 进程 启动 ， 在 此 由 svscan 对 多 个 supervise 进行 管 

使 用 svc 命令 可 以 通过 supervise 传送 信号 到 守护 进程 。 

使 用 daemontools 的 原 

使 用 daemontools 有 以 下 两 个 原因 : 

@ 在 进程 终止 的 情况 下 ， 能 够 快速 地 自动 重启 

@ 能 够 简单 地 创建 守护 进程 


关于 第 一 个 原因 在 守护 进程 终止 的 情况 下 ，supervise 能 通过 监控 察觉 
并 迅速 地 重新 启动 ， 这 一 优势 非常 突出 。 此 外 还 可 以 防止 没有 注意 到 守 


护 进程 异常 终止 的 情况 出 现 。 


关于 第 二 个 原因 ， 通 常情 况 下 ， 要 作为 守护 进程 运行 ， 需 要 进行 各 种 处 
理 世 ， 例 如 : 


4 在 某 些 操作 系统 中 ， 也 存在 集中 进行 这 些 处 理 的 daemon(3) 函数 。 


。 从 控制 端 断 开 

。 将 当前 目录 变更 为 根 目录 (7) 

。 将 标准 输入 输出 重 定 癌 到 /dev/null (或 者 其 他 文件 ) 
稍微 有 些 棘 手 。 

但 如 果 使 用 daemontools， 只 要 满足 某 个 条 件 《〈“ 详 情 后 述 ) ， 任 何 程序 
5 0 
成 为 守护 进程 的 条 件 .…… 在 前 台 运 行 


在 上 节 中 提 到 了 使 用 daemontools 创建 守护 进程 需要 满足 某 个 条 件 ， 这 
个 条 件 就 是 “在 前 台 (Foreground) 运行 ”。 


httpd、sshd 这 些 一 般 的 守护 进程 ， 由 于 是 在 后 台 进 行 folk 操作 的 ， 因 此 
不 在 daemontools 的 管理 下 。 守 护 进程 中 提供 了 在 前 台 运 行 的 选项 ( 例 
如 sshd 中 的 -D 选项 ) ， 否 则 就 需要 使 用 daemontools 自 市 的 fghack 工 
.= 


在 目 行 编写 守护 进程 的 情况 下 ， 只 需 使 用 while 或 for 进行 无 限 循环 ， 
在 程序 不 终止 的 前 提 下 ， 在 前 台 持续 运行 。 
男 外 ，daemontools 中 还 附带 了 优秀 的 日 志 收 集 工具 multilog 。 但 要 使 


Tn 需要 将 守护 进程 的 标准 输出 (或 标准 错误 输出 ) 输出 到 
日 志 oO 


5.4.3 ”守护 进程 的 管理 方法 


下 面 介 绍 守 护 进 程 的 创建 、 终 止 和 重启 的 操作 方法 。 
创建 守护 进程 
此 处 将 需要 创建 的 守护 进程 命名 为 “xxxd”。 


首先 ， 请 先 创 建 一 个 放置 这 些 守护 进程 文件 的 目录 。 使 用 这 一 目录 来 整 
理 有 关 守 护 进程 的 文件 ， 可 以 方便 后 期 管理 。 具 体操 作 方 法 如 下 : 


。 /etc/daemon ~ 放置 守护 进程 的 子 目录 


。 /etc/daemon/xxxd -、xxxd 用 的 文件 夹 


接 下 来 ， 创 建 supervise 运行 的 /etc/daemon/xxxd/run 文件 。 这 是 一 个 典 
型 的 run 文件 瑟 ，run 文件 通过 shell 脚本 进行 有 效用 户 的 变更 及 环境 变 
量 的 配置 后 ， 就 可 针对 程序 使 用 exec 命令 启动 相应 的 守护 进程 。 


5 在 以 下 页 面 中 可 查看 run 文件 的 示例 脚本 ， 请 参考 。 
URL http://smarden.org/runit/runscripts.html 


代码 清单 5.4.1 中 展示 了 示例 代码 ， 以 下 进行 一 些 简 单 的 说 明 。 
@ 将 标准 错误 输出 重 定向 到 标准 输出 上 

@ 运用 后 面 的 指令 蔡 换 掉 该 进程 

全 变更 有 效用 户 

@@ 重 设 环境 变量 ， 配 置 必要 的 环境 变量 

@@ 在 env 子 目 录 中 存在 文件 ， 则 据 此 设 定 环 境 变 量 

@ 执行 守护 进程 的 程序 


若 需 要 使 用 multilog 工具 来 收集 日 志 ， 则 可 在 该 目录 下 创建 下 一 级 子 
目录 log 和 文件 1og/run (图 5.4.2、 代 码 清单 5.4.2) 。 


代码 清单 5.4.1 典型 的 run 文件 


#1/bin/sh 
exec 2>&1 <*@ 


exec \ <“@ 
setuidgid USERNAME \ <*@ 
env - PATH="/usr/local/bin:$PATH" \ <*@ 
envdir ./env \ «© 
/usr/local/bin/xxxd <*@ 


# mkdir /etc/daemon/xxxd/log 
# mkdir /etc/daemon/xxxd/log/main 
# chown USERNAME /etc/daemon/xxxd/log/main 


图 5.4.2 使 用 multilog 的 情况 
代码 清单 5.4.2 /etc/daemon/xxxd/log/run 


#!1/bin/sh 
exec setuidgid USERNAME multilog t ./main 


局 动 守护 进程 


在 启动 守护 进程 的 时 候 ， 需 要 在 svscan 监控 的 目录 (默认 为 /service 目 
录 ) 上 ， 创 建 指定 守护 进程 用 的 目录 的 符号 链接 ， 如 下 所 示 。 这 样 在 五 
秒 钟 内 就 应 该 会 运行 rn， 并 启动 守护 进程 。 


# ln -s /etc/daemon/xxxd /service/ 


停止 、 继 续 、 重 新 启动 守护 进程 


停止 、 继 续 、 重 新 启动 守护 进程 的 时 候 ， 请 使 用 daemontools 中 自 带 的 
svc 命令 〈 表 5.4.1) 。 


表 5.4.1 人 停止、 继续、 重新 启动 


35 fcejxxxd | 发 送 TERM 信 号 结束 进程 ， 此 处 并 不 重新 启 


svc -u 奋进 程 不 存在 则 局 动 进 程 ， 奉 进程 处 于 停止 状态 则 让 进 
/service/xxxd 程 继 续 运 行 


SVC -七 
/service/xxxd 


停 用 守护 进程 


若 需 要 停 用 守护 进程 ， 在 删除 符号 链接 后 ， 需 要 使 用 svc 命令 释放 


supervise。 


# cd /service/xxxd 
# rm /service/xxxd 
# svc -dx . log 


+ 此 外 ， 以 下 内 容 也 需要 释放 


# mv /service/xxxd /service/ .xxxd 


# svc -dx /service/.xxxd /service/.xxxd/log 
# rm /service/ .xxxd 


发 送信 和 号 


在 表 5.4.1 中 写 明 了 使 用 svc 命令 可 以 发 送 TERM 信号 ， 而 其 他 的 信和 号 
也 同样 可 以 发 送 ( 表 5.4.2) 。 


表 5.4.2 能够 使 用 svc 命令 发 送 的 信和 号 


一 


一 


Keepalived ...... run 文件 的 例子 @ 


这 里 介绍 两 个 run 文件 的 例子 。 第 一 个 是 运用 daemontools 管理 
keepalived 时 的 run 文件 ， 具 体 如 代码 清香 5.4.3 所 示 。 


代码 清单 5.4.3 ”keepalived 用 的 run 文件 


#!/bin/sh 
exec 2>&1 
exec /usr/local/sbin/keepalived -n -S 1 


这 里 Keepalived 指定 了 -n (--dont-fork ) 选项 以 在 前 台 运 行 ， 在 使 
用 daemontools 管理 的 情况 下 可 以 使 用 该 选项 。 此 外 ， 在 这 个 例子 中 ， 


并 没有 使 用 multilog 来 记录 日 志 ， 而 是 使 用 了 syslog 的 程序 模块 
CFacility) LOCAL1 进行 输出 。 在 无 盘 服 务 器 无 法 记录 日 志 的 情况 下 ， 
或 者 想 要 将 日 志 集 中 管理 的 情况 下 ， 可 以 使 用 syslog 将 日 志 放 到 syslog 

服务 器 中 进行 记录 。 


自 编 的 监控 脚本 .…...run 文件 的 例子 多 


第 二 个 是 介绍 运用 daemontools 管理 目 编 的 监控 脚本 的 例子 。 代 码 清单 
5.4.4 是 run 文件 ， 和 代码 清单 5.4.3 的 处 理 是 相同 的 。 


代码 清单 5.4.4 目 编 的 监控 脚本 使 用 的 run 文件 


#!1/bin/sh 
exec 2>&1 
exec \ 
setuidgid monitor \ 
env - PATH="/usr/local/bin:$PATH" AN 


envdir ./env \ 
/usr/local/bin/monitor-ping 


接 下 来 是 代码 清单 5.4.5。monitor-ping 是 监控 脚本 的 代码 〈shell 脚 
天 


这 里 的 重点 是 要 进行 无 限 循环 (while true; do ) 以 确保 持续 运行 ， 
但 此 处 知 全 力 进 行 无 限 循环 可 能 会 占用 主机 过 多 的 资源 ， 可 以 通过 


sleep 设置 一 定 的 间 鞭 。 
代码 清单 5.4.5 ”监控 脚本 的 代码 (monitor-ping) 


#!/bin/sh 
[ "$DEBUG" = '1' ] && TRACE='echo DEBUG:' || TRACE=: 
INTERVAL=${INTERVAL :=5} 


$TRACE "TARGET_ HOSTS: $TARGET_ HOSTS" 
$TRACE "INTERVAL: $INTERVAL" 


alert() { 
host=$1 
# TODO: implement 


echo "$host is down!!" 


} 


monitor() { 
host=$1 
if ping -qn -c 1 "$host" >/dev/null 2>&1; then 
$TRACE "OK $host" 
else 
$TRACE "NG $host" 
alert $host 
fi 
} 


while true; do 
for h in $TARGET_ HOSTS; do 
monitor $h 
done 
sleep $INTERVAL 
done 


此 外 ， 在 代码 清单 5.4.5 的 脚本 中 ， 还 引用 了 脚本 以 外 设 定 的 变量 

(CTARGET HOSTS、INTERVAL、DEBUG) 。 因 为 在 run 文件 中 使 用 
了 envdir ， 所 以 像 图 5.4.3 那样 在 env 目录 下 创建 与 变量 同名 的 文件 ， 
并 将 文件 的 内 容 设 为 变量 的 值 ， 环 境 变 量 就 会 及 映 到 monitor-ping 上 。 
这 样 一 来 ， 即 便 监 控 的 主机 数量 有 所 增加 ， 在 不 重 写 run 文件 或 监控 脚 
本 monitor-ping 的 情况 下 ， 也 能 改变 其 行为 。 


# echo 'host1 host2 host3' > env/TARGET_HOSTS 
# echo 16 > env/INTERVAL 
# svc -t /service/monitor-ping 


图 5.4.3 ”使 用 envdir 指定 环境 变量 的 方法 


5.4.4 ”daemontools 的 实用 技巧 


最 后 介绍 使 用 守护 进程 工具 daemontools 时 的 技巧 :控制 服务 的 启动 顺 
序 和 常用 的 shell 函数 。 


控制 所 依赖 的 服务 的 局 动 顺序 


在 使 用 daemontools 管理 的 守护 进程 和 使 用 rc 脚本 启动 的 守护 进程 之 
间 ， 有 了 时 存在 启动 顺序 的 问题 。Dns 就 是 其 中 一 例 。 


daemontools 的 开发 者 也 开发 了 一 个 名 为 djbdnsl 的 DNS 服务 器 。 使 用 
daemontools 可 以 管理 djbdns， 在 通过 /etc/inittab 启动 daemontools〈 的 

svscanboot) 的 情况 下 ， 假 设 运用 rc 脚本 启动 守护 进程 ， 奉 启动 时 不 能 
解析 DNS 名 称 ， 就 可 能 会 造成 无 法 启动 或 运行 异常 等 情况 。 这 是 因为 
在 daemontools 管理 下 的 djbdbs 启动 前 ， 即 进行 DNS 名 称 解 析 前 ， 需 

要 确保 rc 脚本 的 守护 进程 已 经 被 局 动 。 


16 URL http://cr.yp.to/djbdns.html 


要 解决 这 个 问题 需要 下 一 些 工 夫 。 以 下 介绍 使 用 KLab 的 方法 以 供 大 家 


O 


请 参阅 代码 清单 5.4.6。 首 先 ， 编 辑 /etc/inittab， 启 动 svscanboot ; 接 
着 ， 启 动 DNS 服务 器 ， 记 录 需 要 启动 的 守护 进程 的 启动 命令 ， 并 编写 
相应 的 启动 脚本 。 各 脚本 启动 的 服务 如 表 5.4.3 所 示 。 


代码 清单 5.4.6 /etcwinittab (摘录 ) 


SV:123456:respawn:/command/svscanboot 
LG:2345:wait:/etc/init.d/log >/dev/null 
SH:2345:wait:/etc/init.d/share >/dev/null 


WE:2345:wait:/etc/init.d/web >/dev/null 


表 5.4.3 启动 的 守护 进程 


局 动 脚本 局 动 的 服务 


/etc/init.d/log syslog-ng 


/etc/init.d/share 网 络 文件 系统 (NFS) 的 客户 端 


= 


另外 ， 在 这 个 启动 脚本 (etc/init.d/llog〉 中 ， 实 现 了 类 似 于 代码 清单 
5.4.7 中 的 waitns 的 处 理 。 这 样 在 确认 解决 了 DNS 名 称 解析 的 问题 后 ， 
紧 接 着 就 启动 了 服务 用 的 守护 进程 。 


代码 清单 5.4.7 waitdns 


waitdns() { 
while true; do 
dig 0127.6.6.1 +short +time=1 {DOMAINNAME} >/dev/null 2>&1 && break 
done 


} 


在 代码 清单 5.4.6 的 启动 脚本 中 有 三 行 wait!” ， 虽 然 waitdns 只 对 第 二 行 
/etc/init.d/log 是 必须 存在 的 ， 但 为 了 保险 起 见 ， 无 论 是 之 后 的 
/etc/init.d/share 还 是 /etc/init.d/web， 都 还 是 写 上 为 妙 。 


2 wait 只 在 操作 系统 启动 时 执行 一 次 ， 作 用 是 等 待 第 4 项 指定 的 进程 执行 结束 。 


常用 的 shell 函数 
以 下 介绍 笔者 在 实际 运用 中 常用 的 三 个 shell 函数 。 


daemonup 


在 /service 中 创建 符号 链接 。 登 录 、 启 动 守护 进程 (代码 清单 
5.4.8、 图 5.4.4) 。 


代码 清单 5.4.8 daemonup 


daemonup() { 
[ -z "$1" ] && return 


case $1 in 


DAEMONDIR=$1 
;; 
*) 
DAEMONDIR=/etc/daemon/$1 
;; 
esac 
[ -d $DAEMONDIR ] || { echo "no such dir: $DAEMONDIR"; return; } 


d=$ (basename $DAEMONDIR) 
if [ ! -s "/service/$d" ]; then 
ln -snf ${DAEMONDIR} /service/ 


fi 
/command/svc -uu /service/$d >/dev/null 2>&1 


# daemonup monitor-ping 
(或 者 ) 
# daemonup /path/to/monitor-ping 


图 5.4.4 ”daemonup 的 使 用 示例 


daemondown 


与 daemonup 的 作用 正好 相反 。 停 止 、 删 除 守 护 进程 ， 并 从 /service 
中 删除 符号 链接 (代码 清单 5.4.9、 图 5.4.5) 。 


代码 清单 5.4.9 daemondown 


daemondown() { 
[ -z "$1" ] && return 
if [ -s /service/$1 ]; then 
mv /service/$1 /service/.$1 
/command/svc -dx /service/.$1 
if [ -d /service/.$1/log ]; then 
/command/svc -dx /service/.$1/log 


fi 
rm -f /service/.$1 
else 
echo "not found: /service/$1" 
fi 
} 


daemondown monitor-ping 


图 5.4.5” daemondown 的 使 用 示例 
daemonstat 


显示 /service 下 的 守护 进程 的 启动 日 期 及 自 启 动 以 来 经 过 的 时 间 
(代码 清单 5.4.10、 图 5.4.6) 。 该 函数 能 够 使 只 显示 经 过 秒 数 的 
daemontools 中 附带 的 svstat 命令 的 输出 更 便于 阅读 。 


代码 清单 5.4.10 ”daemonstat 


daemonstat() { 


local -a ds 


if [ $# -gt 0 ]; then 
for i in "$@"; do 
ds[${#ds[@]}]=${i#/service/} 


done 


cd /service/ 


svstat ${ds[@]} | \ 


while read daemon state dsec pid sec dumy; do 


[ "$state" == "down" ] && sec=$dsec 
printf "%-26s %4s %8ds = %3ddays %062d:%602d:%602d, since %s\n" \ 
$daemon $state $sec \ 


$((sec / (66*+ 606* 24) )) \ 


$(( (sec / (60* 68 )) % 24 )) \ 
$(( (sec / 66) % 66 )) \ 
$((sec % 60)) \ 
"$(date -d "$sec seconds ago" "+%y/%m/%d %T")"; 


done 


# daemonstat 

dhcpd: 7417649s 
dnscache .in: 5227391s 
dnscache .1o: 7417649s 
qmail: 5637954s 


85days :27: 87/16/65 
66days :03: 67/16/36 
85days :27: 87/16/65 
65days :05: 8687/16/25 
85days :27: 87/16/65 
85days :27: 8687/16/65 
85days 27: 8687/16/65 
85days 2 87/16/65 
85days 2 8687/16/65 


qmqpd: 7417649s 
smtpd: 7417649s 
stone: 7417649s 
tinydns.ex: 7417649s 
tinydns.in: 7417649s 


图 5.4.6 ”daemonstat 的 使 用 示例 


5.5 网 络 引 导 的 应 用 一 PXE、initramfs 


5.5.1 网络 引 导 


网 络 引 导 (Network Boot) 是 指 在 设备 启动 时 从 网 络 上 获取 必要 的 资 
料 ， 以 在 本 机 完成 启动 工作 。 一 般 情况 下 设备 启动 是 由 BIOS 从 本 地 的 
便 舟 或 CD-ROM 等 外 存 设 备 调 取 启动 时 必要 的 Boot Loader (引导 加 载 
程序 ) 及 操作 系统 内 核 来 完成 的 。 网 络 引 导 则 与 此 不 同 ， 它 是 在 网 络 服 
务 器 上调 取 这 些 必 要 的 启动 文件 的 。 


网 络 引 导 的 特性 及 优势 


若 使 用 网 络 引 导 ， 在 机 器 启动 时 束 无 需 在 本 地 部 署 外 存 设备 〈 例 如 人 硬盘 
等 ) 了 。 由 于 网 络 引 导 是 在 网 络 上 取得 Boot Loader 及 操作 系统 内 核 


的 ， 因 此 在 实际 应 用 中 ， 与 通常 的 情况 相 比 ， 系 统 的 灵活 度 会 有 所 增 
加 。 特 别 是 在 网 络 引 导 上 应 用 initramfs 18 机 制 时 ， 灵 活性 更 为 突出 。 


18 关于 initramfs 的 机 制 可 以 参考 Linux 的 附带 文档 。 具 体 可 以 首先 在 kemel.org 等 网 站 获取 
Linux 内 核发 布 包 ， 然 后 通过 linux-2.6.X.X/Documentation/filesystems/ramfs-rootfs-initramfs.txt 
文件 就 可 以 了 解 到 了 。 


人 


initramfs 是 指 在 内 核 挂 载 到 根 文 件 系 统 及 局 动 init 之 前 ， 仅 在 内 核 外 部 
运行 初始 化 的 机 制 。initramfs 的 主要 功能 是 在 将 内 核 挂 载 到 根 文件 系统 
时 ， 将 所 需 的 驱动 模块 加 载 到 内 核 。 


initramfs 的 实质 是 通过 cpio 工具 来 收集 初始 化 所 需 的 文件 ， 并 对 文件 
进行 gzip 压缩 。 在 Boot Loader 将 内 核 读 取 到 到 内 存 时 ， 该 文件 也 会 和 
内 核 一 起 被 配置 在 内 存 上 。 如 果 内 存 上 存在 initramfs 的 映像 ， 则 内 核 在 
上 自身 初始 化 结束 之 后 ， 挂 载 根 文件 之 前 前 ， 将 运行 initramfs 中 的 /init 程 
Ts J 和 通常 启动 时 使 用 的 init 程序 不 同 ， 该 init 程序 
是 shell 脚本 。 


网 络 引 导 中 ，Boot Loader 在 从 文件 服务 器 上 读 取 内 核 时 ， 会 一 同 取 得 
initramfs。 这 意味 看 ， 即 便 事先 在 需要 局 动 的 设备 上 没 做 任何 准备 ， 只 
0 系统 的 内 核 及 initramfs， 就 可 以 让 任何 机 器 局 动 
深 作 系统 。 


如 果 使 用 网 络 引 导 ， 局 动 操作 系统 时 就 不 需要 磁 各 了 ， 即 将 操作 系统 运 
行 所 必要 的 文件 系统 都 存放 在 本 地 磁盘 之 外 ， 这 样 就 实现 了 典型 的 无 盘 
系统 。 在 无 盘 系 统 中 ， 根 系统 文件 放置 在 NFS (Network FileSystem， 
网 络 文件 系统 ) 或 MFS (内 存 文 件 系 统 ，Memory File System ) 上 。 


2 关于 在 Linux 操作 系统 中 将 NFS Ds 系统 使 用 的 详情 ， 在 内 核 的 说 明文 档 


linux-2.6.X.X/Documentation/nfsroot.txt 中 


通常 便 盘 都 是 机 器 构成 要 素 中 故障 率 最 高 的 部 件 ， 所 以 使 用 无 盘 系 统 的 
话 ， 设 备 的 故障 率 就 会 大 幅度 减少 。 


5.5.2 ”网 络 引 导 的 行为 .... PXE 


以 下 让 我 们 了 解 一 网 党 引导 的 行为 。 昌 说 网 络 引导 可 以 基于 不 同 的 方 
式 实现 ， 但 当今 x86 架构 中 占据 主导 地 位 的 还 是 Intel 开发 的 PXE (Pre- 


eXecution Environment) 20 。PXE 实际 上 就 是 在 网 卡 (NIC) 上 植 入 了 
扩展 的 BIOS 模块 。 PXE 的 引导 流程 如 下 (图 5.5.1) : 


2 URL http://www.pix. ee OC a et ne pdf 

PXE BIOS 自身 没有 相应 的 配置 项 目 ， 但 使 用 PXE 引导 需要 确保 DHCP 服务 器 的 正确 设 定 。 
以 下 网 页 中 有 PXELINUX 相关 的 说 明 ， 请 参考 。 

URL http://syslinux.zytor.com/pxe.php 


议 


@ 通常 情况 下 的 BIOS 进行 初始 化 操作 。 在 这 个 过 程 中 浏览 扩展 的 
BIOS， 登 录 PXE BIOS 


四 在 启动 设备 上 激活 PXE， 控 制 转 移 到 PXE BIOS 
@ 接 到 控制 的 PXE BIOS 使 用 DHCP 获取 IP 地 址 等 信息 ， 准 备 IP 通 
信 


@ PXE BIOS 从 文件 服务 器 中 获取 Boot Loader 进行 启动 ， 继 续 控 
制 。 文 件 服务 器 的 地 址 和 Boot Loader 的 文件 名 可 以 从 步 又 0 中 的 
DHCP 服务 器 获取 


全 Boot Loader 进行 启动 后 ， 从 步骤 个 的 文件 服务 器 中 获取 Boot 
Loader 上 自身 的 配置 文件 。 文 件 服务 器 的 地 址 由 了 PXE BIOS 通知 给 Boot 


Loader 


@ BootLoader 有 尼 动 内 核 后 ， 在 此 期 间 和 若 指 定 了 相应 的 配置 文件 ， 就 
人 initramfs 文件 ， 并 将 其 和 内 核 一 起 配置 在 内 存 
上 ， 其 后 再 将 控制 移交 给 内 核 


二 文件 服务 器 一 px 核 、 
el DHCP (TFTP 服务 器 )】 ff Boot Loader CW > 
服务 器 er > 的 配置 文件 


IP 地 址 Boot Loader 
TFTP 服务 器 
合 | | 地 址 【41 
Boot Loager 
文件 名 
Boot Loader 
IP 地 址 请 求 请 求 


-一 PXE BIOS 
©O 


图 5.5.1 PXE 引导 的 流程 ※ 


※ 本 案例 中 使 用 了 initramfs。 


如 果 移 交 给 内 核 进行 管理 ， 这 之 后 束 与 平常 的 局 动 没什么 区 别 。 使 用 的 
系统 内 核 也 没 必 要 特意 支持 PXE， 与 平常 一 样 使 用 就 可 以 了 。 


PXE BIOS 从 服务 器 中 获取 文件 时 ， 使 用 了 TFTP (Trivial File Transfer 
0 。 这 是 一 个 基于 UDP 的 简单 文件 传输 协议 ， 无 法 完成 验证 的 
以 下 对 PXE 引导 的 必要 事项 进行 归纳 整理 : 
。 支持 PXE 引导 的 网 卡 
近期 的 服务 器 设备 上 安装 的 网 卡 应 该 都 支持 该 技术 
。DHCP 服务 器 
为 PXE 引导 提供 必要 的 信息 
。 TFTP 服务 器 


BIOS 在 取得 必要 的 文件 时 使 用 ， 需 要 文 持 atftpd 等 的 TSIZE 
先 项 


initrarnfs 


配置 文件 请 求 


根 文件 系统 请 求 


a a 
We 


。 支持 PXE 的 Boot Loader 
PXE 引导 中 需要 使 用 支持 该 技术 的 Boot Loader。 有 支持 PXE 的 
GRUB?*!1 一 PXEGRUB， 以 及 SYSLINUX* 的 PXE 版 
PXELINUX23 

。 内 核 
没有 必要 为 PXE 引导 准备 特别 的 系统 内 核 

。 供 根 文件 系统 初始 化 使 用 的 系统 (initramfs) 


在 要 将 根 文 件 系统 托管 到 内 存 文件 系统 上 ， 则 此 项 必须 ， 除 此 以 外 
的 情况 下 ， 使 用 initramfs 就 能 够 灵活 构建 局 动 系统 


。 根 文件 系统 《的 内 容 ) 


无 论 使 用 什么 样 的 根 文 件 系 统 ， 为 了 确保 系统 的 运行 ， 都 需要 事先 
以 茶 种 形式 准备 好 所 需 的 文件 


21 URL http://www.gnu.org/software/grub/ 
2 URL http://syslinux.zytor.com/ 


23 URL http://syslinux.zytor.com/pxe.php 


搭建 无 盘 系 统 的 情况 下 ， 要 在 文件 服务 器 上 准备 供 根 文件 系统 使 用 的 文 
件 。 如 有 果 将 NFS 服务 名 直接 作为 根 文 件 系 统 挂 载 ， 则 应 该 先 将 其 设 为 
能 够 进行 NFS 挂 载 的 形式 ; 知 要 将 内 存 文件 系统 作为 根 文件 系统 使 

用 ， 则 应 该 先 将 其 设 为 便于 initramfs 初始 化 脚本 使 用 的 形式 24 。 


24 在 笔者 管理 的 环境 中 ， 根 文件 系统 使 用 的 文件 是 通过 tar 打包 放置 到 外 部 不 能 访问 的 Web 服 
务 器 上 的 (根据 启动 的 服务 器 的 目的 不 同 ， 会 准备 多 个 使 用 tar 打包 的 文件 ) 。Initramfs 的 初 
始 化 脚本 通过 HTTP 取得 所 启动 的 系统 中 的 tar 文件 ， 并 在 内 存 文件 系统 上 解压 。 之 所 以 不 使 
用 PXE 使 用 的 TFTP 而 特意 使 用 HITP， 是 因为 TFTP 的 文件 传输 速度 比 HTTP 要 慢 很 多 。 


5.5.3 ”网络 引导 的 应 用 实例 


下 文 将 以 笔者 管理 的 环境 为 例 ， 向 大 家 介绍 一 下 网 络 引 导 的 应 用 。 
负载 均衡 需 


负载 均衡 器 《〈 毫 无 疑问 使 用 了 LVS) 是 需要 关注 的 重点 。 每 当 人 硬盘 遭遇 
故障 时 ， 负 载 均 衡 就 会 俘 止 工作 ， 这 会 会 为 维护 工作 带 来 很 多 麻烦 ， 所 以 
笔者 使 用 无 盘 系 统 来 规避 此 问题 。 在 部 普 该 系统 后 ， 至 今 还 未 发 生 过 人 硬 
件 故障 造成 负载 均衡 器 停止 工作 的 情况 。 


当然 也 并 不 是 说 不 使 用 硬盘 就 可 以 避免 故障 。 万 一 出 现 了 故障 ， 可 以 在 
众多 Web 服务 需 中 挪用 一 合作 为 备用 机 。 要 使 Web 服务 器 完成 负载 均 
衡器 的 工作 ， 只 需 将 其 作为 负载 均衡 器 进行 网 络 引导 即 可 所 。 也 就 是 
说 ， 仅 仅 重 新 启动 一 台 机 器 就 可 以 完成 修复 工作 。 


”在 实际 操作 中 ，Web 服务 器 与 负载 均衡 器 可 能 位 于 链 路 层 (OSI 的 第 二 层 ) 的 两 个 不 同 的 
网 络 中 ， 鉴 于 在 修复 时 没 空 插 拔 网 线 ， 因 此 在 布线 时 就 要 注意 将 所 用 的 设备 设计 到 同一 网 络 
中 。 如 果 需 要 分 离 链 路 层 ， 可 以 使 用 VLAN 进行 分 离 。 在 Web 服务 器 被 作为 负载 均衡 器 使 用 
时 ， 为 了 将 设备 加 入 到 所 需 的 VLAN 上 ， 就 要 变更 相应 的 交换 机 配置 。 


数据 库 服务 器 /文件 服务 器 


数据 库 服 务 器 /文件 服务 器 也 可 以 应 用 网 络 引 导 。 但 需要 注意 不 能 将 数 
据 保 存 到 内 存 文件 系统 上 ， 因 为 无 论 从 容量 的 角度 还 是 从 数据 的 永久 性 
存储 的 角度 来 看 这 都 是 不 现实 的 ， 因 此 需要 将 数据 保存 到 使 用 RAID 元 
余 的 人 硬盘 上 ， 将 根 文件 系统 放 在 内 存 文件 系统 上 。 明 明 已 经 存在 RAID 
磁盘 ， 还 特意 把 根 文件 系统 放 到 内 存 文 件 系 统 上 ， 之 所 以 这 样 做 主要 是 
为 了 简化 部 普 工 作 。 


即便 使 用 了 RAID 阵列 的 磁盘 ， 还 是 有 可 能 会 及 生 故 障 。 为 了 以 防 万 
一 ， 需 要 准备 备用 机 ， 但 由 于 备用 机 一 般 不 会 用 到 ， 如 有 果 分 别 为 数据 库 
服务 器 和 文件 服务 器 准备 备用 机 的 话 ， 残 又 有 些 多 余 了。 


虽然 数据 库 服务 器 和 文件 服务 器 所 运行 的 程序 及 其 行为 都 有 所 不 同 ， 但 
在 人 硬件 方面 两 者 的 结构 是 相同 的 ， 所 以 备用 机 可 以 在 两 者 之 间 通 用 。 妆 
其 中 一 台 设 备 太 生 故 障 时 ， 就 将 备用 机 作为 故障 的 系统 进行 网 络 引 导 。 

这 样 仅 用 一 合 备用 机 就 能 为 两 类 设备 提供 服务 ， 而 且 无 需 部 车 等 索 珊 操 
作 ， 能 快速 完成 修复 。 


维护 用 的 引导 映像 


网 络 引 导 不 仅 为 提供 服务 准备 了 必要 的 系统 ， 也 可 简化 维护 工作 。 
例如 ， 用 于 服务 器 设备 初始 化 设置 的 系统 、 用 于 内 存 测试 的 系统 例如 


启动 memtest26 ) 、 蔡 换 故 障 磁盘 或 下 架 故 障 服 务 器 时 用 来 删除 磁盘 上 
On (例如 shred2”) 等 ， 网 络 引 导 提 供 了 基于 各 种 目的 的 系 


26 URL http://www.memtest86.com/ 


2 以 普通 方式 删除 磁盘 上 的 数据 时 ， 可 以 通过 一 些 数据 恢复 手段 将 数据 恢复 。shred 工具 通过 
在 磁盘 上 写 入 特殊 设计 的 Bit Pattern， 使 恢复 磁盘 数据 的 操作 变 得 更 为 困难 。 


5.5.4 构建 网 络 引 导 

最 后 介绍 配置 网 络 引 导 服 务 右 时 需要 注意 的 几 点 。 

initramfs 的 通用 化 和 作用 的 识别 

在 使 用 initramfs 进行 多 种 系统 的 网 络 引 导 时 ， 若 能 让 initramfs 上 自身 实 
现 通 用 化 ， 则 该 架构 更 为 可 取 。 这 是 因为 initramfs 在 启动 内 核 之 后 运 
行 ， 难 以 调试 ， 维 护 系 统 很 费 工 夫 。 在 initramfs 通用 化 的 情况 下 也 会 出 
现 一 些 问 题 ， 例 如 设备 需要 进行 合适 的 初始 化 操作 ， 在 此 initramfs 脚本 
束 需 要 判断 将 其 用 于 哪个 系统 。 以 下 有 几 种 策略 可 供 参 考 。 


第 一 种 方法 是 在 内 核 命令 行 上 将 参数 传递 给 init 脚本 。 


指定 系统 
boot: db id =166 
?指定 数据 库 服 务 器 


内 核 的 命令 行 用 于 将 参数 传递 给 内 核 绑 定 的 驱动 ， 奉 传 入 多 余 的 参数 就 
会 被 忽略 ， 并 不 会 产生 错误 。 传 递 给 内 核 的 命令 行 的 字符 串 可 以 通过 
proc 文件 系统 在 启动 后 获取 。 要 将 启动 系统 的 参数 通过 内 核 的 命令 行 传 
递 给 initramfs， 可 以 根据 局 动 的 系统 数量 创建 相应 个 数 的 Boot Loader， 
并 在 启动 时 进行 选择 ， 或 者 在 每 次 启动 时 手动 输入 。 但 在 任何 情况 下 ， 
Boot Loader 都 需要 进行 对 话 操作 。 


还 有 一 个 办 法 ， 就 是 initramfs 根据 启动 完毕 的 设备 分 配 的 IP 地 址 (或 
者 相应 的 主机 名 ) 进行 判断 。 分 配 IP 地 址 是 DHCP 服务 器 的 工作 ?8 。 


DHCP 服务 器 为 了 对 启动 的 设备 分 配 特定 的 卫 地址， 会 事先 调查 该 设 
备 上 的 MAC 地址， 并 在 DHCP 服务 右上 配置 IP 地 址 与 MAC 地 址 的 对 


28 若 使 用 了 IPMI (请 参考 5.6 节 ) ， 则 可 以 通过 读 取 IPMI 上 设 定 的 IP 地 址 来 进行 使 用 。 


或 许 还 有 其 他 方法 ， 但 无 论 采 用 哪 种 方法 ， 都 要 根据 目 己 管理 的 环境 ， 
搭建 出 使 用 便捷 、 方 便 扩展 的 架构 。 


无 盘 结 构 中 需要 注意 的 事项 
搭建 无 盘 结 构 时 ， 以 下 几 点 需要 注意 。 


日 志 的 输出 


第 一 点 是 指定 日 志 输 出 的 目的 地 。 一 般 情况 下 日 志 被 记录 在 本 地 硬 
盘 中 ， 但 是 无 盘 结 构 中 本 地 不 存在 硬盘 ， 因 此 知 需要 在 无 盘 系 统 中 
保存 必要 的 日 志 ， 可 以 将 这 些 日 志 传送 到 别 的 设备 上 进行 保存 。 简 
便 的 传送 日 志 的 方法 有 “在 文件 服务 器 〈NEFS) 上 记录 ”和 “使 用 
syslog 传送 ”两 种 方法 。 


网 络 引 导 的 机 器 重 使 用 文件 服务 器 ， 将 日 志 输 出 到 文件 服务 器 上 会 
非常 方便 。 但 在 这 种 情况 下 需要 注意 两 点 : 第 一 点 是 要 避免 多 台 设 
备 问 同 一 个 文件 输出 日 志 ; 第 二 点 是 输出 日 志 的 数量 。 数 量 太 大 会 
阻碍 文件 服务 器 的 WO， 有 人 迟 于 文件 服务 器 原本 的 使 用 目的 。 


如 果 不 使 用 文件 服务 器 ， 使 用 syslog 的 日 志 传 送 功能 也 十 分 方便 。 
在 这 种 情况 下 ， 不 能 使 用 普通 的 syslog， 而 要 使 用 “syslog-ng”2? ， 
这 样 发 送 方 就 可 以 在 发 送 日 志 时 使 用 日 志 过 滤 等 一 些 便利 的 功能 。 


那些 没有 必要 保存 但 是 需要 在 发 生 故 障 时 查看 的 日 志 ， 可 以 输出 到 
内 存 文件 系统 上 。 但 是 在 这 种 情况 下 ， 因 为 内 存 文 件 系统 的 容量 比 
硬盘 小 ， 所 以 要 留心 所 保存 的 日 志 的 数量 。 与 正 痕 情 况 相 比 ， 存 储 
在 内 存 上 的 日 志 应 该 以 更 短 的 时 间 间 隅 进行 转 储 〈Rotate) ， 并 目 
动 删 除 早 先 的 日 志 记 录 ， 这 惑 是 “multilog” 的 便利 之 处 。 


multilog 是 daemontools 附带 的 程序 之 一 3 ， 在 接收 到 标准 输入 的 
日 志 后 ，multilog 会 进行 过 滤 加 工 ， 之 后 再 输出 。 在 将 日 志 输 出 到 
文件 时 ，multilog 会 指定 目标 文件 的 最 大 存放 空间 ， 大 超出 了 该 空 
间 的 容量 ， 就 会 将 较 新 的 日 志文 件 转 储 ， 并 删除 最 早 的 日 志 。 如 此 
一 来 就 保证 了 日 志文 件 整体 的 数量 不 会 太 大 。 


文件 的 变更 管理 


第 二 点 古 根 文件 系统 所 使 用 的 文件 的 变更 管理 。 在 将 内 存 文 件 系统 
作为 根 文 件 系 统 使 用 的 情况 下 ， 即 便 在 启动 状态 下 变更 文件 ， 重 新 
局 动 后 也 还 是 会 还 原 。 因 此 ， 在 变更 文件 的 时 候 ， 同 时 要 变更 文件 
真正 的 实体 。 如 果 不 这 样 做 ， 在 发 生 故 障 的 情况 下 为 了 解决 问题 而 
重新 局 动 系统 时 ， 残 会 又 过 到 别 的 故障 。 为 了 不 造成 这 样 的 麻烦 ， 
应 该 明确 相应 的 实施 步 又 。 


在 笔者 管理 的 环境 中 ， 知 正在 运行 的 系统 中 有 需要 更 新 的 文件 ， 笔 
者 会 在 更 新 后 确认 其 行为 ， 并 将 其 复制 到 Master 上 。 为 了 以 防 万 
一 ， 对 旧 的 Master 也 会 进行 相应 的 备份 操作 。 男 外 ， 笔 者 还 准备 
了 专门 的 脚本 ， 以 使 这 样 一 连 串 的 作业 实施 起 来 更 加 简单 。 


如 有 关 syslog-ng 的 详情 请 参考 5.7 节 。 


30 有 关 daemontools、multilog 的 详情 请 参考 5.4 节 。 


Master 文件 的 安全 性 


Master 文件 的 安全 性 是 很 有 必要 留意 的 。 根 文件 系统 被 托管 在 内 存 文件 
系统 的 情况 下 ， 需 要 准备 根 文 件 系 统 的 Master 文件 。 访 Master 中 不 能 
包含 密码 或 SSH 密 钥 等 一 般 用 户 无 法 访问 的 文件 。 这 是 因为 Master 文 
件 在 机 器 启动 时 ， 会 从 文件 服务 器 中 进行 复制 。 此 复制 操作 由 initramfs 
进行 ，initramfs 能 够 进行 复制 也 就 意味 着 一 般 用 户 也 可 以 进行 复制 。 


而 且 对 从 文件 服务 器 的 复制 进行 认证 是 没有 意义 的 。 这 是 因为 为 了 让 验 
证 通过 ，initramfs 中 必须 包含 相关 的 认证 信息 ， 而 通过 TFTP 就 可 以 获 
取 initramfs 包 ， 因 为 TFTP 中 是 不 需要 进行 认证 的 。 


5.6 ”远程 维护 一 一 维护 线路 、Serial Console、 


IPMI 


5.6.1 轻松 实现 远程 登录 


退 求 高 适用 性 的 服务 需 在 大 多 数 情 况 下 都 会 被 配置 在 数据 中 心 。 但 是 系 
统管 理 者 不 会 币 驻 在 数据 中 心 ， 特 别 是 小 规模 的 网 站 更 是 如 此 。 服 务 需 
的 配置 地 点 和 平时 系统 管理 者 所 在 的 地 点 相 分 离 ， 每 当 需 要 维护 服务 如 
时 系统 管理 者 都 要 跑 到 服务 器 的 配置 地 点 ， 这 样 无 论 从 时 间 还 是 从 金钱 
上 来 说 部 是 一 种 浪费 。 因 此 ， 通 常 使 用 SSH 等 远程 维护 工具 来 完成 一 
般 的 管理 操作 。 


但 是 在 发 生 故 障 的 情况 下 ， 并 不 一 定 能 进行 远程 登录 。 因 为 远程 登录 是 
以 系统 正常 启动 为 前 提 的 。 本 节 中 将 介绍 在 出 现 故障 或 系统 无 法 运行 的 
情况 下 实现 远程 维护 (Remote Maintenance) 的 方法 。 


5.6.2 网络 故障 的 应 对 


首先 介绍 一 下 网 络 故障 时 进行 远程 维护 的 办 法 。 远 程 登录 位 于 数据 中 心 
的 服务 历 设 备 时 需要 使 用 相应 的 网 络 线路 ， 该 网 络 线路 惑 是 供 服务 使 用 
的 商用 线路 。 这 条 商用 线路 连接 独 路 由 器 ， 路 由 融通 过 网 络 交换 机 
Switching Hub) 和 服务 器 进行 通信 ， 因 此 对 网 络 故障 的 应 对 还 要 分 为 
对 商用 线路 和 路 由 右 故 障 的 应 对 ， 以 及 对 网 络 交 换 机 故障 的 应 对 。 


维护 线路 


为 了 在 商用 线路 和 路 由 需 〈 三 层 交 换 机 ) 及 生 故 障 的 时 候 也 可 以 进行 远 
程 维 护 ， 需 要 准备 一 个 其 他 系统 的 线路 。 这 里 把 该 线路 称 为 “维护 线 
路 ”。 大 家 可 能 以 为 另行 准备 维护 线路 的 成 本 会 很 高 ， 而 事实 上 却 很 便 
宜 。 因 为 只 有 在 商用 线路 不 能 登录 时 才 会 启用 维护 线路 ， 一 般 情况 下 使 
用 家 用 低档 次 的 线路 也 可 以 缠 。 而 且 不 仪 在 出 现 故 障 的 情况 下 ， 在 平 
常 传送 大 量 文件 等 使 用 商用 线路 会 对 服务 造成 恶劣 影响 的 情况 下 ， 也 可 
以 充分 利用 维护 线路 ， 因 此 维护 线路 绝 不 会 个 浪 费 。 


31 商用 线路 与 维护 线路 如 果 使 用 了 不 同系 统 的 线路 ， 就 不 可 能 出 现 同时 无 法 使 用 的 情况 。 


在 笔者 管理 的 环境 中 ， 维 护 线路 的 结构 如 图 5.6.1 所 示 。 线 路 是 NTT 的 
BFLET'S (+ 该 套餐 的 公 网 IP 是 固定 IP)。BFLET'S 的 光 网 线路 是 从 


ONU (Optical Network Unit， 光 网 网 络 单 元 〉 的 终端 上 引出 的 LAN 网 
线 ， 该 LAN 网 线 并 非 直接 连接 到 路 由 器 ， 而 是 通过 集 线 右 (Hub) 连 
接 到 数 台 服务 器 上 。 议 集线器 与 商用 线路 使 用 的 集线器 在 物理 上 完全 不 
同 ， 商 用 线路 的 集线器 禁止 使 用 VLAN 进行 分 割 ， 这 是 因为 如 果 集 线 
器 发 生 故 障 ， 整 个 结构 都 不 能 使 用 了 。 


图 5.6.1 维护 线路 的 结构 案例 x 
※ 左 侧 是 商用 线路 ， 右 侧 是 维护 线路 。 


经 由 集线器 连接 到 ONU 维护 线路 的 服务 器 之 中 ， 实 际 上 有 一 人 台 是 接 入 
了 Internet 的 。 正 因为 该 服务 器 是 直接 连接 到 外 网 的 ， 因 此 可 以 不 受 商 
用 线路 或 内 网 故障 的 影响 ， 在 任何 情况 下 都 能 登录 。 史 外， 之 所 以 采用 
集线器 将 多 台 服 务 圳 连接 到 ONU 维护 线路 ， 主 要 是 考虑 到 在 变更 接 入 
Internet 的 服务 器 时 ， 通 过 该 架构 可 以 不 用 特意 赶赴 数据 中 心 去 插 拔 
LAN 网 线 ， 只 需 通 过 控制 维护 线路 ， 丈 能 解决 问题 了 。 


交换 机 故障 的 应 对 


即使 在 使 用 商用 线路 不 能 远程 登录 的 情况 下 ， 通 过 维护 线路 也 可 以 登录 
一 人 台 机 器 。 从 这 人 台 机 器 登录 到 另 一 全 机 器 时 需要 使 用 到 交换 机 。 接 下 来 


就 介绍 一 下 当 交 换 机 发 生 故 障 时 的 应 对 方法 。 


交换 机 发 生 故 障 的 原因 主要 有 两 个 ;第 一 个 是 交换 机 目 身 的 原因 ， 这 种 
情况 下 应 对 的 方法 就 是 重新 局 动 交 换 机 ， 第 二 个 是 传送 给 交换 机 的 报 文 
的 原因 ， 这 种 情况 的 应 对 方法 是 切断 发 送 方 连接 的 端口 。 


网 络 交 换 机 有 智能 交换 机 和 非 智 能 交换 机 两 种 类 型 。 在 使 用 非 智 能 交换 
机 的 情况 下 ， 不 能 远程 进行 这 些 操作 ;在 使 用 智能 交换 机 的 情况 下 ， 可 
以 登录 交换 机 自 喘 ， 从 交换 机 的 配置 接口 重 局 交换 机 或 切断 端口 。 


登录 交换 机 的 方法 一 般 有 两 种 : 借助 Telnet、SSH 在 网 络 上 登录 ， 或 通 
过 Serial Console (串口 控制 台 〉 登 录 。 在 进行 一 般 的 操作 时 会 使 用 前 
者 ， 即 网 络 登 录 ， 因 为 它 的 啊 应 很 好 。 但 在 发 生 故 障 导 致 不 能 使 用 网 络 
登录 的 情况 下 ， 则 可 以 通过 Serial Console 登录 。 关 于 Serial Console 的 
这 里 仅 对 Serial Console 的 连接 方式 进行 
说 明 。 


为 了 在 商用 线路 发 生 故 障 时 也 能 够 登录 ， 就 需要 确保 设备 连接 到 维护 线 
路 。 因 此 这 里 将 交换 机 的 Serial Console 也 设置 为 可 以 从 这 个 设备 访 

问 。 为 此 就 需要 把 所 有 交换 机 的 串 行 接口 〈Serial Interface) 都 连接 到 该 
设备 上 ， 但 一 般 情 况 下 设备 上 最 多 有 两 个 串 行 接口 ， 因 此 如 果 要 连接 到 
三 台 以 上 的 交换 机 ， 就 需要 使 用 USB- 串口 转换 连接 器 (照片 5.6.1) 等 


设备 。 


照片 5.6.1 USB - 串口 转换 连接 器 
5.6.3 Serial Console 


至 此 我 们 就 能 应 对 网 络 故 障 了 。 接 下 来 介绍 一 下 在 设备 故障 导致 不 能 通 
过 网 络 登 录 时 ， 以 及 设备 重启 时 进行 远程 维护 的 方法 Serial Console 


32 Serial Console 在 Linux 中 的 使 用 可 以 参考 “Remote Serial Console HOWTO” 文 档 的 说 明 ， 该 
文档 暂时 没有 中 文 版 。 
URL http://tldp.org/HOWTO/Remote-Serial-Console-HOWTO/ 


Console〔 控 制 台 〉 有 具体 来 讲 就 是 键盘 和 显示 器 ， 即 输入 与 输出 。 在 类 
UNIX 操作 系统 中 ， 大 部 分 的 管理 操作 都 无 需 使 用 GUI， 只 需 通过 文本 
的 输入 输出 就 能 完成 控制 操作 。 而 在 Serial Console 中 ， 则 没有 使 用 显 
示 器 和 键盘 ， 而 是 通过 串 行 接口 将 其 他 设备 连接 到 想 要 管理 的 目标 设 
备 ， 进 行文 本 的 输入 及 输出 的 当 。 


3 在 工作 站 普及 之 前 ， 一 台 
终 问 ) 的 情况 很 常见 。 现 今 
用 。 


UNIX 设备 连接 多 个 Serial Console 装置 (Dumb terminal， 非 智能 
虽然 非 智 能 终端 已 经 没有 了 ， 但 是 其 功能 通过 软件 得 到 了 实现 和 应 


Serial Console 中 一 般 使 用 RS-232C 的 接口 。RS-232C 的 通信 和 是 一 对 一 

的 。 与 以 太 网 不 同 的 是 ， 这 里 使 用 一 根 网 线 只 能 完成 与 一 台 设 备 的 通 

言 ， 因 此 通信 双方 的 两 台 设 备 就 成 为 了 一 对 。 当 需要 通过 Serial Console 
登录 某 台 设备 时 ， 首 先 需要 远程 登录 与 之 成 对 的 设备 ， 之 后 再 在 目标 设 
备 上 登录 。 虽 然 使 用 起 来 有 些 麻 烦 ， 但 由 于 目前 大 部 分 服务 器 中 都 有 一 
两 个 RS-232C 的 端口 ， 因 此 只 要 准备 好 网 线 妆 ， 之 后 再 对 软件 进行 配 
置 就 可 以 使 用 了 。 


34 一 般 使 用 名 为 “Serial Cross Cable” 的 网 线 。 另 外 ，RS-232C 使 用 的 端口 分 为 9 个 针脚 和 25 个 
针脚 两 种 ， 在 服务 器 设备 上 使 用 的 是 9 个 针脚 的 RS-232C。 


Serial Console 的 实现 
Serial Console 与 SSH 的 不 同 点 就 是 不 将 被 登录 的 一 端 称 为 服务 器 。 但 


这 里 为 了 便于 理解 ， 我 们 将 被 操作 的 一 端 称 为 服务 器 ， 将 进行 操作 的 一 
端 称 为 客户 并 。 


以 Serial Console 闻名 的 客户 端 软 件 有 cu、ermit、minicom。 鉴 于 cu 是 
历史 悠久 的 程序 ， 可 能 比较 难以 上 手 。 知 单纯 使 用 Serial Console， 
minicom 则 更 好 理解 。 另 一 方面 ，cu 或 kermit 不 仅 能 够 应 用 于 Serial 
Console， 也 可 以 通过 串口 来 传送 文件 3 。 


35 使 用 了 名 为 xmodem、ymodem、zmodem 的 协议 。 虽 说 理论 上 可 以 向 任何 目标 传送 文件 ， 但 
需要 在 服务 器 上 准备 发 送 和 接收 用 的 相关 软件 。 


随 着 设备 的 启动 ，Serial Console 的 服务 器 % 所 承担 的 功能 也 会 发 生变 
化 。 以 下 按 顺 序 分 别 说 明 BIOS、Root Loader、 操 作 系 统 、gentty 的 行 


36 这 里 没有 具体 列举 出 来 ， 其 实 上 述 交 换 机 就 是 Serial Console 的 服务 器 。 


e BIOS 


如 果 是 服务 器 设备 上 搭载 的 BIOS， 则 有 具有 “控制 台 重 定 
辣 ”(Console Redirection〉 的 功能 ， 即 在 设备 启动 时 ， 将 BIOS 输 
出 的 消息 以 及 BIOS 的 配置 画面 ， 输 出 到 指定 的 串 行 接口 中 


e Root Loader 


lilo、SYSLINUX、GRUB 等 通常 的 Root Loader 都 支持 Serial 
Console。 只 需 进 行 相应 的 配置 (图 5.6.2 @) ， 就 可 以 与 一 般 的 终 
端 控制 台 相 同 ， 通 过 Serial Console 访问 Boot Loader 的 控制 画面 


操作 系统 


大 部 分 的 类 UNIX 操作 系统 都 会 在 系统 启动 时 执行 的 初始 化 脚本 输 
出 相应 的 信息 ， 这 里 会 将 此 类 信息 输出 到 Serial Console 上 。 如 果 
是 Linux 操作 系统 ， 则 可 以 在 内 核 的 参数 中 指定 Serial Console 作 
为 默认 的 控制 台 (图 5.6.2 @) 


。 getty 


在 类 UNIX 操作 系统 中 ， 控 制 台 的 登录 是 使 用 名 为 getty”” 的 程序 
来 进行 操作 的 ，Serial Console 的 登录 也 同样 使 用 getty 


37 准确 地 说 ，getty 通过 监控 指定 的 接口 ， 若 发 现 有 信息 输入 ， 就 进行 Login 程序 的 登录 操 


default=06 

timeout=16 

serial --unit=1 --Speed=19266 -word=8 --parity=no --Stop=1 <@ 
terminal --timeout=36 console serial <@ 


title Linux (Console Mode) 
root (hd6,6) 


kernel /vmlinuz ro root=/dev/sda3 console=ttyS1,19266n8 console=tty6 <*@ 
title Linux (Serial Mode) 

root (hd6,6) 

kernel /vmlinuz ro root=/dev/sda3 console=tty6 console=ttyS1,19266n8 <*@ 


图 5.6.2 基于 GRUB 的 Boot Loader 与 内 核 配 置 案例 * 


※ 本 例 中 GRUB 的 版 本 是 0.99。 
@O 是 GRUB 自身 的 Serial Console 配置 , @ 是 内 核 参 数 。 


getty 有 很 多 种 类 ， 其 中 大 部 分 都 能 够 处 理 从 Serial Console 的 登录 ， 但 
这 里 建议 使 用 mgetty 。 通 常 一 启动 getty， 就 会 锁定 监控 的 网 络 接口 。 
但 在 使 用 mgetty 的 情况 下 ， 只 需 在 启动 时 附加 -r 选项 ， 或 者 在 配置 文 
件 (mgetty.config〉 中 选 定 “direct yes”， 就 可 以 在 不 锁定 网 络 接口 的 情 
况 下 正常 执行 38 (代码 清单 5.6.1) 。 据 此 ， 仅 仅 通 过 一 个 Serial 连 
接 ， 即 使 是 在 mgetty 监控 的 情况 下 ， 也 可 以 使 用 客户 端 程序 访问 成 对 
设备 的 Serial Console。 


38 车 启动 login， 就 会 锁定 网 络 接口 。 


代码 清单 5.6.1 mgetty.config 的 例子 * 


port ttySO 
speed 192606 
direct yes 
blocking no 
data-only yes 


need-dsr yes 


toggle-dtr n 
ignore-carrier no 
login-time 16 
term Vt162 


※ 该 例 中 mgetty 的 版 本 号 是 1.1.31-Jul24。 


5.6.4 IPMI 


如 此 一 来 ， 在 服务 器 不 能 进行 网 络 登 录 以 及 重启 操作 系统 时 也 可 以 进行 
远程 维护 了 。 但 如 果 内 核 失 去 控制 ， 则 从 Serial Console 也 不 能 登录 

了 。 在 这 种 时 候 ， 如 果 设 备 在 身边 的 话 ， 束 可 以 手动 按 下 电源 按钮 以 强 
制 重启 设备 ， 但 远程 的 设备 则 不 能 这 样 操作 33 。 


3 大 部 分 的 数据 中 心 都 提供 了 代替 进行 这 一 简单 操作 的 服务 。 但 是 从 请 求 代为 执行 到 实际 执 
行 重启 操作 中 间 需 要 一 段 时 间 ， 而 且 也 不 好 意思 每 次 都 请 求 代 为 执行 。 


在 这 种 情况 下 ， 可 以 通过 网 络 控制 周遭 设备 的 电源 ， 这 就 是 

IPMI (Intelligent Platform Management Interface ) 4 。IPMI 是 intel 公司 
开发 的 ， 是 一 个 从 软件 出 发 来 控制 及 确认 设备 电源 状态 的 标准 。IPMI 
室 无 疑问 可 以 在 局 域 网 的 设备 上 使 用 ， 同 时 也 可 以 访问 网 络 上 的 其 他 设 
备 以 实现 相应 功能 。IPMI 是 通过 在 设备 上 安装 硬件 而 发 挥 作用 的 ， 
此 其 运行 独立 于 操作 系统 。 进 一 步 说 就 是 IPMI 不 依赖 于 机 器 电源 的 开 
关 状 态 ， 只 要 给 设备 提供 电流 ， 使 用 IPMI 就 能 够 从 外 部 控制 设备 ， 
IPMI 就 好 像 是 独立 于 需要 控制 的 目标 设备 的 小 设备 。 


49 有关 IPMI 的 详情 ， 请 查阅 各 硬件 的 说 明文 档 以 及 各 软件 的 网 站 : 
GNU FreeIPMI URL http://www.gnu.org/software/freeipmi/ 

IPMItool URL http://sourceforge.net/projects/ipmitool/ 

ipmiutil URL http://sourceforge.net/projects/ipmiutil/ 


IPMI 的 功能 


笔者 在 表 5.6.1 中 对 IPMI 的 功能 进行 了 归纳 总 结 。 目 前 使 用 的 IPMI 的 
版 本 有 1.5 和 2.0， 其 中 任何 一 个 版 本 都 可 以 控制 电源 和 获取 服务 器 的 
传感器 以 及 事件 日 志 等 信息 。IPMI 2.0 引 人 注 目的 地 方 是 引入 了 Serial 
over LAN (SoL) ， 这 是 通过 IPMI 访问 服务 器 的 Serial Console 的 功 


能 。 使 用 Sol 就 可 以 不 受 串联 线路 的 限制 ， 从 网 络 上 的 任意 设备 都 能 够 
访问 Serial Consol。 


表 5.6.1 IPMI 的 功能 


获取 风扇 的 转速 、 温 度 、 电 源 电压 


国 国 事件 


Serial over LAN。 在 1.5 版 本 中 需要 根据 情况 自行 安装 


国 国 看 门 狗 定时 器 (WDT，Watch Dog Timer) 


图 国医 到 


使 用 IPMI 


要 使 用 IPMI， 首 先 需 要 在 设备 上 安装 IPMI 的 功能 。 安 装 的 方法 根据 设 
备 的 不 同 存 在 差异 。 有 的 设备 原本 就 配备 IPMI 的 功能 ， ee 
认 该 设备 使 用 IPMI 功能 的 相关 选项 〈 例 如 所 需 的 端口 等 ) ， 有 基体 可 以 
询问 硬件 制造 商 。 


用 来 访问 IPMI 的 软件 ， 有 的 是 由 硬件 制造 商 发 布 的 ， 有 的 是 开源 的 
(OSS) 。 硬 件 制造 商 发 布 的 软件 有 时 只 能 在 同一 制造 商 的 便 件 上 使 
用 ， 这 一 点 需要 注意 。 而 开源 的 软件 则 不 依赖 于 操作 系统 及 便 件 制造 
商 ， 因 此 使 用 起 来 较为 便利 。 开 源 的 IPMI 客户 端 软件 有 FreeIPMI、 
IPMItool、IPMIutil 等 。 


5.6.5 “总结 


这 里 介绍 的 内 容 并 不 全 面 。 但 是 鉴于 引入 该 技术 的 成 本 较 低 ， 而 且 在 平 
营 的 管理 操作 中 也 能 够 方便 地 使 用 ， 因 此 引入 该 技术 绝 不 会 造成 亏损 。 
当然 ， 也 有 很 多 类 似 的 其 他 技术 ， 例 如 Magic SysRq、 看 门 狗 定时 器 、 

kdump 等 ， 这 里 就 不 再 详细 叙述 了 。 请 尝试 使 用 多 种 技术 ， 以 创造 出 更 
加 便于 管理 的 环境 。 


5.7 Web 服务 如 的 日 志 处 理 
ng、cron、rotatelogs 


5.7.1 Web 服务 器 日 志 的 分 拣 : 收 集 


在 真正 开始 整理 分 流 环境 提供 服务 后 ， 为 了 统计 访问 或 分 析 故 障 ， 使 用 
日 志 的 情况 会 相应 地 增加 。 因 为 在 分 流 环境 中 是 由 多 个 Web 服务 器 文 
撑 一 个 服务 的 ， 因 此 日 志 也 会 根据 服务 器 的 台数 被 分 流 输出 。 但 是 从 日 
志 分 析 、 保 存 的 角度 来 看 ， 将 这 些 日 志 集 中 在 一 处 是 比较 理想 的 。 本 节 
了 驶 将 对 日 志 的 分 拣 、 收 集 进 行 说 明 ， 讲 述 Web 服务 器 〈Apache) 的 日 
志 的 分 拣 、 收 集 方法 ， 该 方法 对 其 他 日 志 也 同样 适用 。 


5.7.2 ”分 拣 与 收集 


日 志 的 分 拣 与 收集 是 两 个 不 同 的 概念 。 这 里 所 讲 的 分 拣 是 指 经 党 把 
Web 服务 费 输 出 的 日 志 殊 除 无 天 的 部 分 后 ， 将 相关 内 容 梳 理 并 归纳 整理 
到 一 个 文件 中 ;而 收集 则 是 指定 期 对 各 服务 器 输 出 的 日 志 进 行 收集 并 保 
存 。 二 者 的 区 别 在 于 各 自 的 目的 和 行为 存在 差异 。 


经 党 对 日 志 进 行 分 拒 的 目的 在 于 把 握 服务 此 在 任意 时 间 扣 的 运行 状况 。 
例如 当 故 障 发 生 的 时 候 ， 就 可 以 对 具体 哪个 机 融 出 现 了 问题 进行 确认 ， 
还 可 以 粗略 地 统计 服务 器 的 访问 状况 ， 即 瞬时 PV， 以 及 用 户 数 等 关联 
言 思 。 也 就 是 说 ， 发 生 了 什么 、 在 何 处 发 生 的 ， 都 可 以 通过 日 志 进 行 了 
解 。 


另 一 方面 ， 收 集 日 志 的 主要 目的 是 统计 、 分 析 和 保存 。 服 务 器 运 维 中 最 
基本 的 就 是 对 Web 服务 器 、AP 服务 器 的 日 志 进 行 整 理 分 析 ， 因 此 需要 
以 日 、 周 、 月 等 多 种 时 间 跨 上 度 为 单位 的 日 志 信息 。 而 如 条 需 要 的 日 志 分 


syslog、 syslog- 


散在 各 处 ， 统 计 起 来 是 非常 麻烦 的 。 而 且 考 虑 到 存储 的 问题 ， 将 日 志 集 
中 在 一 处 也 比较 便于 操作 。 


即便 都 是 将 日 志 集 中 在 一 处 ， 日 志 的 分 拣 和 收集 还 是 存在 区 别 ， 这 是 因 
为 二 者 的 日 志 的 精度 存在 差异 。 在 Web 服务 器 中 ， 随 着 访问 量 的 增 

多 ， 单 位 时 间 内 输出 的 日 志 数 量 也 在 增加 。 在 访问 临时 出 现 高 峰 时 ， 为 
了 确 你 分 撕 到 所 有 的 日 志 并 加 以 保存 ， 保 存 日 志 的 硬件 就 需要 具备 稳定 
的 性 能 。 然 而 ， 以 应 对 突 发 状况 为 前 提 准 备 高 性 能 的 硬件 ， 这 从 成 本 上 
来 看 很 不 合算 ， 因此 这 里 的 分 拣 日 志 0 并 另外 使 用 收集 的 
方法 收集 在 各 服务 右 本 地 上 输出 的 日 志 


分 拣 、 收 集 日 志 有 很 多 种 方法 。 例 如 ， 不 使 用 文件 方式 记录 而 是 在 数据 
库 中 进行 记录 。 奉 在 数据 库 中 记录 日 志 ， 虽 然 搜索 起 来 比较 方便 ， 但 管 
理 的 经 费 也 会 随 之 增加 ， 通 冲 我 认为 这 方法 吃力 不 讨好 。 下 面 笔 者 就 把 
在 实际 管理 的 环境 中 采取 的 办 法 介绍 给 大 家 。 


5.7.3 日 意 有 的 区 二 syslog 和 syslog-ng 


在 对 操作 有 日志 进行 分 拒 时 使 用 syslog 是 很 方便 的 。syslog 的 作用 是 在 类 
unix 操作 系统 中 建立 一 个 日 志 分 撕 中 心 。 接 下 来 就 癌 大 家 介绍 一 下 使 用 
syslog 来 分 拣 Apache 的 日 志 的 方法 41L 。 


41 虽然 本 书 中 没有 介绍 ， 但 日 志 的 分 拣 也 可 以 不 使 用 syslog， 而 使 用 Apache 的 
mod_log_spread 模块 来 实现 ， 具 体 在 《构建 可 扩展 的 Web 站 点 》 (Cal Henderson 车 ， 徐 宁 
译 ， 电 子 工 业 出 版 社 2008 年 出 版 ) 中 的 第 10 章 有 详细 说 明 。 

若 需 了 解 mod_log_spread， 请 参考 以 下 链接 : 

URL http://www.backhand.org/mod_log_spread/ 


使 用 syslog 进行 日 志 的 分 撕 


Apache 中 除了 可 以 将 日 志 输 出 的 目的 地 记录 在 指定 的 文件 以 外 ， 也 可 
以 将 日 志 转 送 到 已 经 局 动 的 其 他 程序 上 。 接 收 到 日 志 的 程序 可 以 根据 该 
程序 本 身 的 目的 处 理 该 日 志文 件 “ 。 另 一 方面 ，syslog 中 包含 logger 
程序 ， 该 程序 能 够 将 从 标准 输入 接收 的 操作 日 志 传 递 给 syslog。 通 过 配 
合 使 用 这 二 者 ， 就 可 以 在 syslog 中 输出 Apache 的 操作 日 志 。 


4 Apache 中 将 日 志文 件 转送 到 其 他 程序 的 方法 请 参考 Apache 文档 的 CustomlogDirective 项 的 
说 明 。 


| 各 有 关 从 Apache 接收 日 志文 件 的 logger 的 详情 ， 请 参考 附带 的 man 帮助 指令 。 


在 syslog 中 分 拣 的 日 志 都 被 设 定 了 程序 模块 (Facility〉 和 优先 级 

CPriority) 4 。syslog 能 够 据 此 识别 日 志 ， 并 将 需要 的 日 志 输 出 到 指定 
文件 上 ， 或 将 日 志 转 送 到 其 他 设备 的 sysloy 上 。 即 使 是 使 用 syslog 将 
Apache 中 输出 的 操作 日 记分 拒 到 特定 的 一 台 机 器 上 ， 也 要 使 用 程序 模 
块 和 优先 权 。 也 就 是 说 ， 首 先 使 syslog 能 够 识别 Apache 中 输出 的 操作 
日 志 ， 然 后 再 把 需要 的 日 志 转 送 到 日 志 服 务 器 (图 5.7.1) 。 


| 4 syslog 中 的 程序 模块 ， 换 句 话说 就 是 范畴 〈Category) 。 事 先 设 定好 几 种 程序 模块 及 优先 
级 ， 通 过 syslog 输出 日 志 的 程序 会 在 输出 时 从 中 选择 合适 的 一 种 。 程 序 模块 的 例子 有 
kerm《“ 用 于 内 核 ) 、mail 《邮件 相关 ) 、daemon《〈 用 于 各 种 守护 进程 ) 等 。 优 先 级 的 例子 有 


debug、error、emerg 等 。 


KNarllog/syslog 


图 5.7.1 使 用 syslog 分 拣 日 志 < 
※ 在 需要 分 拒 多 个 站 点 的 日 志 的 情况 下 ， 各 个 站 点 的 日 志 的 输出 目的 地 不 同 。 


syslog 有 时 可 能 会 无 法 正确 获取 操作 日 志 。 当 同一 个 日 志 被 连续 输出 
时 ，syslog 还 是 会 坚持 将 其 分 拒 归 纳 到 一 个 日 志 中 ， 这 种 方式 不 适用 于 
有 严密 性 要 求 的 情况 ， 而 且 在 输出 大 量 的 日 志 时 会 造成 磁盘 IO 的 负 
担 。 因 此 使 用 syslog 分 拣 的 日 志 只 在 发 生 问题 时 查找 出 现 问题 的 设备 时 
使 用 ， 或 者 被 单纯 被 用 于 观察 站 点 的 趋势。 


syslog-ng 


假设 现在 运营 了 多 个 站 点 ， 要 分 别 对 每 个 站 点 的 日 志 进 行 分 拣 。 在 类 似 
这 样 的 情况 下 ， 分 别 为 各 个 站 点 分 配 程序 模块 和 优先 级 会 花费 很 多 精 

力 。 此 外 ， 因 为 程序 模块 和 优先 级 的 组 合 是 有 限 的 ， 所 以 能 够 配置 的 数 
量 就 会 有 一 个 上 限 。 可 以 的 话 应 先 解 决 Web 服务 占 使 用 的 程序 模块 和 
优先 级 问题 ， 但 是 这 种 情况 下 各 个 站 点 的 日 志 混在 一 起 是 非常 麻烦 的 。 
总 之 ， 理 想 的 方式 是 使 用 一 个 程序 模块 和 优先 级 来 传达 日志， 在 输出 日 
i 0 
同 的 文件 中 。 


这 些 可 以 通过 syslog-ng ”来 实现 。syslog-ng 是 syslog 的 升级 版 。 与 
syslog 相 比 ，syslog-ng 增加 了 很 多 便利 的 功能 ， 如 日 志 过 滤 、 日 志 转 
储 、 自 动 生成 输出 日 志 的 目录 等 。 这 些 便利 的 功能 之 一 就 是 “ 宏 ”。 宏 可 
以 展现 与 日 志 有 关 的 元 信息 ， 这 样 就 能 从 宏观 角度 去 了 解 这 些 日 志 所 包 
含 的 具体 信息 。syslog-ng 中 提供 的 宏 能 够 表示 当前 时 间 和 程序 模块 与 优 
先 级 、 输 出 日 志 的 主机 、 输 出 的 日 志 中 设 定 的 标签 〈 程 序 名 ) 等 。 在 
syslog-ng 中 通过 使 用 宏 ， 能 够 设置 输出 日 志 的 文件 名 。 也 就 是 说 ， 如 果 
使 用 表示 标签 的 宏 作为 输出 目的 地 的 文件 名 ， 就 可 以 使 带 有 同一 个 标签 
的 日 志 在 同 一 个 文件 中 输出 。 日 志 的 转 储 也 可 以 通过 在 文件 名 中 使 用 表 
示 日 期 的 宏 来 实现 (图 5.7.2 ) 。 


入 syslog-ng 是 在 以 下 链接 中 发 布 的 。 

URL http://www.balabit.com/network-security/syslog-ng/ 

与 正统 的 syslog 相 比 ，syslog-ng 的 配置 文件 的 编写 语法 可 能 比较 难以 掌握 。 以 下 是 有 关 
syslog-ng 的 中 文 介绍 及 应 用 实例 。 

URL http://baike.baidu.com/view/3426564.htm 

URL http://www.oschina.net/question/54100_32993 


日 期 ，10/21 
ee kame ANarllog/kame/usagi.acc.10-21 


程序 名 : usagi 
pr Oct 21 06:27:24 kame usagi[123}]: test log from kame 


“test log from kame” 


图 5.7.2 syslog-ng 的 使 用 示例 < 
※ syslog-ng 可 以 在 配置 文件 中 使 用 宏 指 定 文件 名 。 


5.7.4 日 志 的 收集 


收集 操作 日 志 的 最 重要 的 目的 是 保存 并 分 析 操 作 日 志 。 大 部 分 情况 下 ， 
日 志 分 析 是 一 天 进行 一 回 。 因 此 收集 操作 日 志 也 是 一 天 一 次 ， 在 早晨 服 
务 句 的 负荷 比较 低 的 时 候 ， 对 每 个 机 器 前 一 天 的 操作 日 志 进 行 收集 。 在 
笔者 管理 的 环境 中 ， 收 集 的 同时 也 会 将 各 机 器 上 的 以 前 的 日 志 删 除 。 而 
且 还 会 将 日 志 服 务 器 上 的 以 前 的 日 志 进 行 压缩 所 。 


4 这 样 一 连 串 的 动作 都 可 以 通过 脚本 实现 。 在 编写 脚本 时 ， 需 要 注意 发 生 错误 时 的 记录 及 修 
复工 作 。 这 是 因为 如 果 日 志 解 析 程 序 检测 不 到 日 志 收 集 失败 ， 就 会 将 只 解析 了 一 半 的 结果 进行 
报告 ， 因 此 就 会 造成 混乱 。 


除了 每 天 进行 日 志 分 析 之 外 ， 日 志 分 析 也 可 以 按照 一 定 的 时 间 周 期 进 

行 ， 如 每 周 、 每 月 进行 一 次 。 而 且 还 可 以 从 新 的 角度 去 分 析 过 去 的 日 

志 。 因 此 这 就 需要 随时 都 可 以 马上 看 到 以 前 的 日 志 。 在 这 里 需要 留意 的 
是 ， 未 压缩 的 日 志 会 占用 大 量 的 磁盘 空间 ， 所 以 一 定 要 对 以 前 的 日 志 进 
行 压 缩 。 即 使 这 个 压缩 处 理 需 要 花费 较 长 时 间 也 没有 问题 ， 重 点 是 要 尽 
可 能 地 将 其 压缩 得 小 一 些 4 。 笔 者 的 管理 环境 中 是 使 用 bzip2 来 压缩 

并 保存 Web 服务器、AP 服务 器 的 日 志 的 ， 使 用 约莫 500GB 的 磁盘 空 
间 就 可 以 很 好 地 对 几 年 的 日 志 进 行 保存 。 


4 在 日 志 的 文本 数据 中 ， 由 于 已 经 确定 好 了 输出 的 字符 串 模 式 ， 因 此 压缩 率 比 较 高 。 例 如 某 
网 站 的 Apache 的 日 志 ， 使 用 bzip2 的 最 小 压缩 选项 ， 就 可 以 将 其 压缩 至 源 文 件 的 10。 


Apache 日 志 的 转 储 .………. cron 与 rotatelogs 


鉴于 每 天 都 在 收集 日 志 ， 若 将 Web 服务 器 输出 的 日 志 按 天 进行 划分 ， 
但 看 起 来 应 该 会 非常 便利 。 因 为 Apache 本 映 并 不 拥有 日 志 转 储 功 能 ， 
所 以 为 了 将 Apache 输出 的 日 志 按 天 进行 转 储 ， 束 要 依赖 于 外 部 的 程 
序 。 这 里 有 两 种 方法 。 


第 一 种 方法 是 使 用 cron 对 日 志文 件 重 命名 及 重新 启动 Apache。 因 为 在 
Apache 工作 的 时 候 ， 日 志文 件 处 于 打开 的 状态 ， 仅 仅 在 中 途 重 命名 日 
志文 件 是 不 能 实现 转 储 的 ， 所 以 要 在 重 命名 之 后 立刻 重新 局 动 


Apache， 才 可 以 实现 日 志 的 转 储 。 


第 二 种 方法 是 使 用 Apache 附带 的 rotatelogs 程序 人 ， 即 在 日 志 的 分 捧 
一 节 中 提 到 的 ， 与 回 其 他 程序 转发 日 总 的 功能 配合 使 用 的 程序 。 

将 接收 的 日 志 写 入 文件 ， 并 且 具 备 在 写 入 日 志 时 将 日 志文 件 转 
储 的 功能 。 


48 rotatelogs 是 实现 Apache 日 志 转 储 的 方式 ， 使 用 方式 见 Apache 的 man 帮助 ， 也 可 参考 下 面 
的 页 面 : 
URL http://httpd.apache.org/docs/2.0/programs/rotatelogs.htm 


遗憾 的 是 ， 无 论 使 用 哪 一 种 方法 ， 都 不 能 完全 实现 日 志 的 实时 转 储 。 使 
用 cron 的 情况 下 ， 重 新 启动 Apache 时 肯定 会 发 生 时 间 上 的 波动 。 虽 说 
使 用 rotatelogs 的 方法 比 起 使 用 cron 的 方法 在 转 储 时 具备 更 严密 的 时 间 
判定 。 但 是 因为 Apache 从 收 到 请 求 到 生成 日 志 并 传递 给 rotatelogs 存在 
延迟 ， 例 如 即使 事先 设 定 在 0 点 进行 转 储 ， 也 有 可 能 发 生 昨 天 访问 的 日 
志 被 输出 到 今天 的 日 志文 件 上 的 情况 。 


5.7.5 “日志 服务 器 的 作用 与 构成 


日 志 服 务 喜 的 作用 就 是 对 日 志 进 行 分 拣 和 收集 ， 并 将 收集 的 日 六 进行 保 
存 。 除 此 以 外 ， 在 对 其 他 收集 来 的 日 志 进 行 分 拒 和 分 析 时 ， 也 会 使 用 到 
日 志 服务 器 。 日 志 的 分 拣 收集 、 旧 日 志 的 压缩 、 日 志 分 析 等 都 是 比较 重 
要 的 处 理 ， 因 此 提供 服务 的 服务 器 不 能 同时 承担 日 志 服 务 器 的 工作 。 忆 
外 ， 日 志 的 保存 通 第 都 需要 容量 足够 大 的 人 硬盘 。 因 此 最 好 能 够 提供 专门 
的 设备 作为 日 志 服 务 器 。 


笔者 的 管理 环境 中 准备 了 主 用 和 备用 两 台 日 志 服务 器 。 备 用 的 日 志 服 务 
器 中 放置 了 备份 的 日 志文 件 ， 还 承担 了 在 主 用 的 服务 器 出 现 故障 时 代替 
它 的 作用 。 夯 外 ， 对 于 按 月 或 按 年 分 拒 的 大 量 的 日 志文 件 来 说 ， 分 析 和 是 
十 分 必要 的 ， 但 分 析 会 耗费 相当 程度 的 资源 ， 为 了 不 影响 日 第 的 日 志 分 
拒 ， 可 以 将 大 规模 的 日 志 分 析 放 到 备用 的 日 志 服 务 器 上 进行 。 


无 法 准备 专门 的 备用 服务 器 的 情况 下 ， 就 需要 将 日 志文 件 转移 保存 到 别 

的 设备 上 。 该 设备 不 一 定 要 在 数据 中 心 ， 使 用 维护 线路 将 日 志文 件 传送 

1 在 这 种 情况 下 ， 需 要 注意 日 志文 件 中 
第 : 鱼 / 谎 言 息 。 


5.7.6 ”总 结 


节 笔 者 以 自己 管理 的 环境 为 例 介 绍 了 日 志 的 分 拣 和 收集 。 根 据 日 志 的 
内 容 和 操作 方法 ， 对 日 志 的 要 求 也 有 所 变化 。 例 如 在 一 些 站 点 中 可 能 需 
要 实时 获取 PV、 用 户 数 等 。 在 大 规模 的 站 点 中 ， 和 鉴于 日 志 的 数量 过 
多 ， 会 出 现 保存 相对 抹 烦 的 问题 。 当 然 ， 根 据 站 点 的 不 同 ， 对 于 日 志 的 
要 求 肯 定 古 干 差 万 别 的 。 即 使 是 同一 站 点 ， 随 着 站 反 自 号 的 成 长 ， 对 日 
志 的 要 求 也 会 发 生变 化 。 因 此 ， 获 取 日 志 的 处 理 也 要 根据 具体 情况 来 
活 应 对 。 布 望 本 节 的 内 容 能 够 对 您 有 所 帮助 。 


第 6 章 服务 后 合 一 一 目 律 的 基础 
设施 、 稳 健 的 系统 


6.1 Hatena 网 站 的 内 容 


6.1.1 Hatena 的 基础 设施 


Hatenal 是 一 个 提供 博客 (Hatena Diary) 、 书 签 (Hatena Bookmark) 、 
百科 搜索 等 Web 服务 的 网 站 。 截 至 2008 年 2 月 ， 月 均 访 问 量 达 到 了 
970 万 次 。Hatena 基于 其 自身 的 理念 提供 了 独特 的 Web 服务， 同时 也 
建立 了 一 个 特殊 的 基础 设施 。 


1 URL http:/www.hatena.ne.jp 


在 Hatena 的 基础 设施 构建 方面 ， 始 终 坚持 了 “自我 原则 ”和 “开源 原则 ”这 
两 个 原则 (照片 6.1.1 一 照片 6.1.3) 。“ 自 我 原则 ”是 指 ， 不 购买 现成 的 
服务 器 ， 而 是 自己 设计 和 组 装 服务 器 硬件 及 方案 。“ 开 源 原则 ”是 指 ， 在 
服务 器 上 操作 的 软件 几乎 全 部 都 是 OSS 开源 软件 。 另 外 在 自行 编写 软 
件 或 为 软件 附加 功能 时 ， 也 尽 可 能 地 利用 了 开源 社区 的 相关 技术 。 


照片 6.1.2 配置 好 的 自制 服务 器 


rs 


ee PS 


照片 6.1.3 ”数据 中 心 的 内 部 情况 


截止 到 目前 ，Hatena 的 整个 基础 设施 已 拥有 约 350 台 服 务 器 。 其 中 提供 
服务 的 基础 设施 主要 由 三 个 层次 构成 ， 即 反问 代理 服务 器 、AP 服务 
器 、 数 据 库 服 务 器 ， 并 根据 负载 和 需求 添加 了 高 速 缓存 服务 器 、 文 件 服 
务 器 或 批 处 理 服务 器 。 另 外 还 有 日 志 服 务 器 、 监 探 服务器、 资源 服务 器 
等 共享 的 服务 器 (图 6.1.1) 。 


提供 服务 的 主 服务 器 


批 处 理 
服务 器 


图 6.1.1 Hatena 网 站 的 服务 器 构成 

正 是 因为 这 些 服 务 嚣 集群 每 时 每 秒 都 在 工作 着 ，Hatena 网 站 才能 够 持续 
地 提供 服务 。 本 章 将 介绍 Hatena 为 提高 基础 设施 的 稳定 性 、 营 运 效 
率 、 用 电 效 率 和 可 扩展 性 等 所 做 的 努力 。 

6.1.2 可 扩展 性 和 稳定 性 


对 Hatena 这 样 每 天 都 要 处 理 海量 请 求 的 网 站 来 说 ， 通 过 进行 有 效 的 负 
载 均 衡 来 维持 较 高 的 可 扩展 性 是 非常 重要 的 。 


Hatena 是 利用 LVS (IPVS) +keepalived 来 实现 负载 均衡 的 ， 在 此 准备 
两 类 服务 器 ， 将 使 用 VRRP 实现 元 余 的 主机 集群 作为 一 类 (图 中 的 共享 


服务 器 ) ， 将 各 反 向 代理 服务 器 、AP 服务 器 、 数 据 库 服 务 器 这 三 个 层 
面 的 服务 器 作为 另 一 类 《图 中 提供 服务 的 主 服务 器 ) 。 在 LVS 服务 器 

的 存储 中 不 使 用 普通 硬盘 ， 而 是 使 用 固态 硬盘 以 努力 降低 硬件 故障 率 。 

另外 ， 通 过 在 LVS 中 利用 DSR 路 由 协议 ， 既 可 以 减少 通过 LVS 服务 

器 的 流量 ， 而 且 还 能 将 各 层 服务 器 划分 为 类 来 把 握 全 局 。 如 果 未 来 访问 
量 进一步 增长 ， 也 可 以 根据 情况 细 化 各 层 类 的 划分 以 方便 管理 。 


反问 代理 


反 向 代理 主要 使 用 的 是 Apache 2.2。 反 向 代理 代理 交接 了 多 个 后 端 模 
块 ， 这 里 不 使 用 mod_proxy_balancer， 而 是 使 用 mod_proxy 模块 来 进行 
反问 代理 。 负 载 均 衡 则 是 利用 上 述 的 LVS 技术 来 完成 的 。 此 外 ， 和 AP 
服务 器 之 间 通 过 利用 Squid 实现 最 大 限度 的 缓存 ， 以 减少 AP 服务 器 和 
数据 库 服 务 器 的 负载 。 


对 反 同 代理 Apache 还 实施 了 Dos 攻击 的 防范 策略 ， 即 利用 笔者 开发 的 
mod_dosdetector “ 以 动态 检测 DoS 攻击 。 引 进 mod_dosdetector 之 前 ， 

每 当 受 到 DoS 攻击 时 只 能 手动 添加 查找 攻击 源 IP 地 址 的 设 定 ， 实 际 解 
决 起 来 非常 复杂 ， 但 通过 引入 mod_dosdetector 模块 ， 就 可 以 动态 消除 
攻击 ， 简 单 的 DoS 攻击 基本 不 会 造成 什么 影响。 


?2 URL http://sourceforge.net/projects/moddosdetector/ 


在 Apache 的 架构 中 ， 针 对 一 个 请 求 ，worker 模式 下 会 为 其 分 配 线 程 ， 
prefork 模式 下 会 为 其 分 配 进程 ， 而 且 在 等 待 AP 服务 器 啊 应 期 间 ， 分 配 
也 不 会 被 释放 。 因 此 ， 在 收 到 大 量 请 求 的 情况 下 ， 就 算 AP 服务 器 的 负 
载 程度 较 低 ， 也 有 可 能 会 使 用 掉 过 多 反问 代理 的 资源 。 在 此 之 前 ， 在 
Hatena 网 站 的 书签 功能 中 ， 用 户 调 取 书 签 的 API 束 发 生 过 这 个 问题 。 该 
API 的 请 求 与 其 他 请 求 相 比 数量 差距 悬殊 ， 为 了 完成 API 的 处 理 ， 正 常 
页 面 会 出 现 啊 应 延迟 的 状况 。 因 此 ， 我 们 在 Apache 的 前 端 再 准备 一 个 
不 同 染 构 的 Web 服务 器 lighttpd 作为 反 同 代理 ， 将 API 和 正常 的 请 求 分 
类 ， 使 处 理 效率 得 以 提高 。 这 样 优化 架构 以 后 就 能 快速 地 做 出 啊 应 了 。 


数据 库 
在 可 扩展 性 和 稳定 性 方面 ， 数 据 库 容易 成 为 瓶 倾 。Hatena 全 面 及 用 了 


MySQL 数据 库 。 初 期 阶段 的 Hatena 使 用 了 PostgreSQL， 之 后 很 快 便 转 
到 了 MySQL， 并 沿用 至 今 。2008 年 是 MySQL 4.0 系统 和 MySQL 5.0 


系统 共存 的 状态 。 笔 者 个 人 希望 不 再 继续 使 用 淘汰 的 4.0 系统 ， 而 是 全 
部 迁移 到 5.0 系统 ， 但 因为 4.0 系统 和 5.0 系统 时 间 惟 的 记录 不 同 ， 要 
想 全 部 迁移 到 5.0， 必 须 重 写 应 用 程序 ， 所 以 不 太 容 易 进 行 。 


MySQL 采取 了 主人 从 (Master-Slave) 同步 结构 ，Slave 集群 也 通过 LVS 
实现 了 负载 均衡 ， 当 其 中 一 台 Slave 发 生 故 障 时 ， 会 自动 阻止 请 求 发 往 
遭遇 故障 的 服务 器 ， 从 而 增强 了 可 用 性 。 


另外 ， 已 经 迁移 到 MySQL 5.0 的 数据 库 采 用 了 多 主 (Master) 结构 ， 通 
过 keepalived 切换 Active/Standby， 实 现 了 主 数 据 库 的 见 余 (图 
6.1.2) 。 多 主 结构 的 具体 设置 如 代码 清单 6.1.1 所 示 。 通 过 此 设置 ， 多 
个 Master 就 变 成 了 “ 互 为 主 从 ”的 关系 ， 彼 此 的 写 入 会 被 传递 到 对 方 。 但 
在 采用 多 主 结构 的 情况 下 ， 指 定 auto increment 的 地 方 可 能 会 出 现 
INSERT 冲突 的 问题 。 因 此 MySQL 在 进行 autoincrement 时 ， 需 要 指定 
增长 量 (auto_increment increment) 和 偏 移 量 

(auto_increment_offset) ， 这 样 就 能 够 在 多 主 结构 下 正确 使 用 auto 


increment J 。 


“正常 时 发 送 到 数据 库 的 请 求 “发 生 故 障 时 发 送 到 数据 库 的 请 求 


Master 的 
数据 库 

{ Active 叫 

Standby ) 


个 
在 


本 不 影响 服务 的 情况 下 进行 维护 


Master 的 
数据 库 
( Standby ) 


Miaste r 的 
数据 库 
( Active ) 


图 6.1.2 MySQL 的 多 主 结构 
代码 清单 6.1.1 多 主 结构 的 配置 


e 服 务 器 A 


(192 .168.1.1) 
server -id=16601 
master-host = 192.168.1.1 


master-user = repli 

auto increment increment = 16 
auto increment offset = 1 
e 服 务 器 B 


(192.168.1.2) 
server-id=16062 
master-host = 192.168.1.2 


master-user = repli 
auto increment increment = 16 
auto increment offset = 2 


此 外 ， 即 使 在 不 使 用 auto increment 的 数据 库 结 构 中 部 署 了 
Active/Active (多 主 ) 配置 ， 根 据 应 用 程序 行为 的 不 同 ， 也 有 可 能 会 因 


为 Duplicate Entry 错误 而 导致 同步 中 断 。 因 此 ， 需 要 在 每 个 主 服 务 器 上 
安装 keepalived， 根 据 VRRP 来 配置 Active/Standby， 让 执行 修改 类 的 
SQL 语句 只 在 一 方 进 行 处 理 。 据 此 ， 不 管 应 用 程序 的 行为 如 何 ， 在 任何 
情况 下 都 可 以 稳定 运行 了 。 


为 数据 库 的 表 添 加 列 ， 或 者 执行 表 的 优化 操作 时 ， 在 传统 的 主 从 结构 
下 ， 进 行 这 些 维护 必须 停止 服务 ， 而 在 迁移 到 多 主 结构 的 数据 库 中 ， 则 
可 以 在 不 影响 服务 的 正 币 提供 的 情况 下 进行， 可 以 说 同 前 迈 出 了 一 大 


Vo 


在 主机 名 (Active〉 和 主机 妨 (Stand-by)〉 的 多 主 结构 中 ， 具 体 程 序 如 
下 所 示 : 


。 在 主机 妨 (Stand-by) 上 停止 keepalived 


一 /一 


。 分 别 在 主机 外 和 主机 四 上 运行 SLAVE STOP， 停 止 同 步 
。 在 主机 @ 上 执行 添加 列 等 维护 操作 


。 在 主机 @@ 上 运行 SLAVE START， 人 恢复 从 四 到 @ 的 同步 


等 待 主机 @ 的 同步 赶 上 主机 @ 


启动 主机 @ 的 keepalived， 停 止 主机 包 的 keepalived， 将 主机 四 
恢复 为 Active 


在 主机 外 上 执行 SLAVESTART， 人 恢复 从 @ 到 多 的 同步 
等 待 主机 外 的 同步 赶 上 主机 四 
启动 主机 外 的 keepalived， 将 主机 外 恢复 为 Active 


这 是 一 个 复杂 的 过 程 ， 但 这 样 吏 可 以 在 服务 不 停止 的 情况 下 进行 春 干 次 
维护 。 不 过 这 里 必须 保证 所 实施 的 维护 的 内 容 与 并 行 运行 的 Active 的 更 
新 内 容 不 冲突 。 例 如 ， 在 添加 列 到 现 有 表 时 ， 如 果 被 添加 列 的 内 容 全 部 
都 可 以 为 默认 值 ， 束 没有 冲突 问题 ， 男 一 方面 ， 在 进行 删除 列 的 维护 
时 ， 在 Active 一 方 对 列 的 删除 做 出 反映 之 前 就 运行 Insert 语句 的 情况 
下 ， 若 Insert 语句 中 包括 该 列 的 项 目 ， 就 会 在 "等待 主机 @@ 的 同步 赶 上 
主机 * 时 发 生 同步 错误 。 因 此 像 后 者 这 样 ， 在 恢复 同步 时 因 错 误导 致 
司 步 终止 的 情况 下 ， 必 须 中 断 服 务 进行 维护 。 


多 主 的 男 一 个 问题 是 ， 当 访问 量 增加 时 ， 仪 靠 两 台 Master 将 无 法 处 理 
访问 ， 而 必须 增加 Slave。 各 Slave 都 从 属于 某 一 台 Master， 如 果 自 己 
从 属 的 Master 出 现 故 障 ， 而 只 有 一 个 Master 运行 的 话 ， 束 会 导 仅 更 新 
信息 无 法 传递 给 出 现 故 障 的 Master 下 所 挂 载 的 Slave 数据 库 。 因 此 ， 当 
出 现 故 障 时 只 能 通过 别 的 方式 传递 更 新 信息 ， 或 者 停止 出 现 故 障 那 边 的 
Slave 数据 库 ， 这 个 问题 目前 还 没有 找到 很 好 的 应 对 措施 。 


如 果 能 够 采用 前 者 的 方式 ， 从 尚未 出 现 故 障 的 Master 获得 更 新 信息 当 
然 非 第 理想 ， 但 是 从 MySQL 的 同步 机 制 上 来 看 这 比较 困难 ， 因 此 如 果 
要 应 对 的 话 ， 也 只 能 采用 后 者 的 方式 ， 即 停止 出 现 故 障 那 边 的 Slave 数 
据 库 ， 但 这 样 做 会 导致 处 理 能 力 减 半 ， 如 果 服 务 顺 资源 不 够 充足 ， 在 高 
峰 时 间 就 很 可 能 发 生 更 为 严重 的 故障 。 虽 然 这 一 问题 现在 还 没有 到 不 得 
不 解决 的 地 步 ， 但 在 不 久 的 将 来 还 是 要 必须 面 对 的 。 


文件 服务 器 


和 数据 库 一 样 ， 文 件 服 务 器 的 可 扩展 性 和 稳定 性 也 容易 遭 迪 瓶 贷 。 在 
Hatena， 文 件 服务 器 均 已 使 用 DRBD 十 keepalived 进行 过 元 余 处 理 ， 通 


过 使 用 lighttpd 的 反 向 代理 优化 的 API， 还 有 通过 Squid 优化 的 缓存 ， 

从 而 在 见 余 和 高 速 之 间 取 得 了 平衡 。 男 外 在 DRBD 上 元 余 的 块 设备 使 
用 OCFS2 (Oracle Cluster File System for Linux2) 3 集群 文件 系统 进行 
了 格式 化 ， 通 过 使 用 集群 文件 系统 ， 就 可 以 使 DRBD 的 Active 一 方 提 
供 服 务 ，Backup 一 方 进行 备份 ， 这 样 日 音 的 备份 工作 所 造成 的 VO 压力 
就 不 会 影响 到 服务 的 提供 了 。 


3 URL http://0ss.oracle.com/projects/ocfs2/ 


le 


6.1.3 ”提高 运营 效率 
投入 新 服务 器 到 基础 设施 生产 环境 时 ， 应 注意 以 下 几 点 : 
。 便 件 的 组 装 和 配置 
。 安装 系统 
安装 并 配置 应 用 程序 所 需 的 库 等 
配置 监控 等 其 他 基础 设施 所 需 的 运行 准备 
根据 服务 器 的 作用 部 署 应 用 和 配置 数据 库 
部 署 负载 均衡 器 ， 以 启动 生产 环境 
根据 应 用 的 行为 进行 配置 、 完 成 数据 库 的 数据 同步 操作 时 ， 通 常 都 会 相 
当 耗 时 。 但 这 之 外 的 部 分 ， 基 本 都 实现 了 流水 线 化 的 上 自动 作业 ， 例 如 从 
硬件 的 安装 到 实际 投入 使 用 ， 几 平 不 需要 管理 员 参 与 。 
下 面 简单 地 介绍 一 下 其 流程 。 
安装 Kickstart 
Hatena 的 服务 器 基本 上 都 是 从 基础 零件 组 装 的 。 这 部 分 纯粹 是 靠 人 海战 
术 ， 确 实 需要 一 定 的 时 间 。 组 装 完 服务 器 并 设 定 BIOS 之 后 ， 首 先 用 
Kickstart 进行 操作 系统 的 安装 ， 除 了 通常 所 需 的 最 低 限 度 的 操作 系统 的 


安装 之 外 ， 还 应 该 进行 LDAP (Lightweight Directory Access Protocol) 
的 配置 ， 以 及 使 用 autofs 进行 用 户 登 录 方面 的 设 定 ， 此 外 还 有 Puppet 


的 初始 配置 ， 另 外 还 可 以 根据 需要 配置 将 自己 的 IP 地 址 发 送 给 工程 师 
进行 沟通 所 使 用 的 IRC 消息 频道 。 鉴 于 这 里 会 安装 大 量 的 软件 包 ， 所 以 
需要 一 定 的 时 间 。 


这 样 一 来 ， 在 BIOS 的 设置 完成 后 重启 设备 ， 惑 完全 可 以 进行 远程 操作 
J 


软件 包 管理 和 Puppet 
通常 在 进行 “安装 并 配置 应 用 程序 所 需 的 库 等 ”以 及 “配置 监控 等 其 他 基 
础 设施 所 需 的 运行 准备 ”等 工作 时 ， 需 要 花费 相当 多 的 人 力 和 时 间 。 但 
这 里 通过 建立 或 引入 以 下 两 种 工具 : 

。 全 部 使 用 rmp 安装 包 或 使 用 yum 一 键 安装 

。 Puppet (自动 化 配置 管理 工具 ， 具 体 请 参考 5.3 节 ) 
就 几乎 实现 了 自动 化 ， 可 以 大 幅度 减少 配置 花 彝 的 时 间 。 
前 者 是 指 在 希望 使 用 MySQL 的 特定 版 本 或 Apache 需要 一 些 非 标 准 库 
时 ， 使 用 rpm 包 或 通过 yum 工具 进行 安装 。 比 较 矿 烦 的 是 大 量 的 
CPAN 模块 ， 这 里 通过 分 析 CPAN 的 依赖 关系 可 以 自制 脚本 打包 成 
rpm， 这 样 CPAN 模块 也 几乎 可 以 自动 转换 为 rpm 包 。 据 此 ，Hatena 应 
用 所 依附 的 多 达 200 余 个 CPAN 模块 也 可 以 轻松 地 进行 部 署 了 4 。 


4 打包 为 rpm 后 ， 更 新 依赖 于 CPAN 模块 的 应 用 也 变 得 更 容易 了 。 


在 5.3 节 中 介绍 的 Puppet， 通 过 逐渐 积累 运营 诀 竺 ， 使 服务 器 所 需 的 初 

台 配 置 实现 了 上 自动 化 。Puppet 经 常 被 用 于 一 些 很 少 需要 调整 的 配置 中 ， 
例如 域名 服务 器 的 设置 和 sshd 的 设置 ， 以 及 后 端 服务 器 和 数据 库 服务 
器 的 基础 设置 。 至 于 各 应 用 程序 需要 根据 负载 情况 详细 修改 配置 的 配置 
文件 ， 则 仅 部 署 初 始 化 文件 ， 其 余 的 设置 则 依赖 人 工 调整 而 不 使 用 
Puppet。 


从 Puppet 的 特征 上 来 看 ， 设 置 的 微调 也 需要 多 个 步骤 的 元 余 操 作 。 通 

常 需要 采用 试 误 法 (Try and Error) 来 尝试 多 次 重 写 配置 ， 例 如 Apache 
的 httpd.conf 和 MySQL 的 my.cnf 等 配置 文件 ， 考 虑 到 配置 生效 的 速度 
和 效率 ， 最 好 由 各 个 管理 员 提前 编写 几 个 不 同情 况 下 的 配置 文件 ， 届 时 


直接 更 换 合 适 的 配置 文件 就 可 以 了 。 


在 服务 器 的 设置 完成 之 后 ， 就 能 够 轻松 地 部 署 应 用 程序 并 确认 程序 的 运 
行 。 其 后 再 更 新 负载 均衡 器 (LVS) 的 设置 ， 新 服务 器 的 投入 工作 就 结 
可 


服务 器 的 管理 和 监控 


鉴于 笔者 平时 经 常会 对 服务 器 进行 添加 、 设 置 和 微调 等 操作 ， 因 此 需要 
了 解 某 服务 是 在 哪个 服务 器 上 运行 的 ， 还 需要 准确 了 解 各 个 服务 器 的 具 
体 规格 。 以 前 我 们 的 管理 团队 是 通过 Hatena 集团 的 关键 字 功 能 (类 似 
Wiki 那样 的 实现 ) 来 管理 列表 的 ， 但 由 于 更 新 过 程 过 于 复杂 ， 很 容易 
出 现 更 新 纶 漏 ， 例 如 常常 在 想 使 用 某 服务 时 才 发 现 该 服务 其 实 是 在 其 他 
服务 器 上 运行 的 。 

造成 这 一 问题 的 最 大 原因 是 ， 若 改变 一 个 服务 器 的 作用 ， 就 会 率 连 到 下 
述 多 项 需要 更 正 的 项 目 ， 所 以 很 难 避 免 人 为 错误 。 


。 修改 服务 器 管理 关键 字 
。 更改 Nagios 监控 的 设置 


。 在 视图 监控 工具 MRTG (Multi Router Traffic Grapher) ”上 修改 
配置 


。 更改 应 用 程序 部 署 的 目标 列表 
。 更 改 LVS 的 配置 


5 URL http://0ss.oetiker.ch/mrtg/ 


接 下 来 开始 自行 建立 服务 器 管理 工具 。 我 们 的 目标 是 : 只 需 修 改 服 务 器 
管理 工具 上 面 的 数据 ， 相 应 的 配置 就 会 自动 得 到 修改 。 在 目前 情况 下 ， 
通过 利用 MRTG 的 视图 化 接口 ， 在 自行 建立 的 服务 器 管理 工具 上 加 入 
视图 监控 等 功能 ， 这 样 一 来 就 能 在 部 署 时 避免 更 新 目标 对 象 列 表 了 ， 即 
无 需 手 动 修改 配置 文件 ， 通 过 视图 端 就 能 完成 监控 操作 。 今 后 视图 端 还 
会 添加 LVS 和 Nagios 的 控制 台 。 


服务 器 管理 工具 能 够 输出 诸如 服务 器 台数 以 及 各 种 规格 的 服务 器 台数 统 
计 人 信息， 结合 Hatena Graph 的 相关 功能 ， 还 能 够 掌握 基础 设施 规模 和 架 
构 的 变革 。 最 近 发 现 Hatena 的 基础 设施 中 依然 在 使 用 Pentium MMX， 
笔者 不 由 得 有 些 感慨 。 


该 服务 器 管理 工具 将 作为 OSS 开源 软件 进行 公布 。 
使 用 Capistrano 部 署 


Capistrano。 是 很 有 历史 的 应 用 程序 部 署 工 具 了 ， 它 几乎 能 一 键 完 成 部 
署 操 作 。Capistrano 是 使 用 Ruby 语言 开发 的 应 用 部 得 工具 ， 不 仪 可 以 
应 用 于 Ruby on Rails 的 Web 应 用 框架 ， 还 能 应 用 于 其 他 比如 PHP 开发 
的 Web 应 用 上 。 通 过 使 用 该 工具 ， 就 可 以 将 需要 执行 的 任何 命令 发 送 
-es 台 服 务 器 批量 执行 ， 还 可 以 在 shell 中 交互 式 地 执行 命令 ， 非 常 方 
蝎 。 


6 URL http://www.capify.org/ 


在 Hatena， 并 没有 像 这 样 直接 使 用 Capistrano， 而 是 对 Capistrano 的 功 
能 进行 了 一 部 分 调整 。 例 如 通过 上 述 服务 器 管理 工具 的 API 获得 发 送 部 
署 等 命令 的 目标 服务 器 列表 等 。 因 此 ， 即 使 基础 设施 的 维护 团队 增设 了 
服务 器 ，Web 应 用 程序 开发 者 也 可 以 不 考虑 这 一 点 ， 无 障碍 地 进行 应 用 
程序 的 部 署 和 更 新 等 。 


6.1.4 用 电 效 率 提 高 资源 的 利用 率 

运行 大 量 的 服务 器 并 不 断 增 强 其 性 能 ， 基 础 设施 的 运营 成 本 必然 会 增 
加 。 这 样 就 产生 了 一 个 问题 一 一 是 继续 使 用 现 有 的 服务 器 呢 ? 还 是 引进 
效率 较 高 的 新 服务 器 呢 ? 


Hatena 不 仅 重视 购买 服务 器 的 费用 等 初期 成 本 的 压 纵 ， 同 时 也 重视 用 电 
成 本 的 压 纵 。 因 此 ， 日 癌 会 基于 以 下 三 个 观点 进行 服务 器 的 调度 和 配 
备 。 


。 在 配备 和 调度 服务 器 时 ， 重 视 服 务 器 每 1A 所 发 挥 的 性 能 
。 尺 可 能 提高 每 台 服 务 器 的 性 能 ， 根 据 虚 拟 化 技术 分 割 利用 


。 不 安装 无 用 的 零件 
重视 服务 器 每 1A 所 发 挥 的 性 能 


在 选择 服务 器 时 ， 大 多 数 情 况 下 人 们 都 会 比较 重视 硬件 本 身 的 价格 ， 而 
往往 忽视 硬件 的 耗 电 量 。 而 在 服务 器 制造 商 提供 的 参数 列表 中 ， 往 往 耗 
电量 写 得 也 并 不 那么 明确 。 在 Hatena， 也 有 自己 组 装 的 硬件 ， 在 评定 耗 
电量 时 ， 不 仅 是 CPU 和 必 片 组 ， 内 存 、 硬 盘 和 电源 装置 的 耗 电量 也 都 
要 一 一 进行 测试 ， 并 根据 测试 结果 来 选择 。 


对 于 现 有 的 、 已 经 在 生产 环境 中 的 服务 器 ， 也 会 通过 更 换 一 部 分 零件 来 
提高 性 能 ， 降 低 耗 电量 。 最 近 的 案例 中 ， 最 具 代 表 性 的 是 从 Core2 Duo 
的 CPU 更 换 为 “Core2 Quad”， 据 此 束 实 现 了 性 能 翻 倍 且 耗 电量 不 变 的 效 
果 。 这 时 据 Core2 Duo 的 引入 大 约 只 经 过 了 一 年 的 时 间 ， 束 迅速 转变 为 
了 Core2 Quad， 目 前 Core2 Duo 只 保留 了 全 盛 时 期 的 1/3 左右 。 通 过 这 
个 调换 工作 ， 束 能 够 在 不 增加 服务 器 的 情况 下 增强 服务 器 的 承载 量 ， 同 
i 电源 成 本 ， 从 而 有 助 于 基础 设施 成 本 
J 压缩 。 


充分 利用 每 全 服务 器 的 性 能 


如 上 所 述 ， 从 Core2 Duo 转换 到 Core2 Quad 后 ， 将 原本 Core2 Duo 服务 
器 的 软件 放 到 Core2 Quad 服务 器 上 并 进行 见 余 ， 接 下 来 束 产 生 了 男 一 
个 问题 ， 那 就 是 不 能 充分 利用 现 有 服务 器 的 性 能 。 鉴 于 Core2 Quad 的 
性 能 非常 高 ， 仪 用 1 台 束 能 够 处 理 某 种 程度 的 并 发 量 ， 如 果 是 用 于 小 型 


服务 的 话 ， 残 会 浪费 其 性 能 优势 ， 更 何况 为 了 进行 元 余 还 要 准备 2 台 ， 
除非 是 相当 规模 的 服务 ， 否 则 Core2 Quad 服务 器 的 性 能 肯定 无 法 被 充 
分 利用 。 鉴 于 每 台 服 务 器 的 性 能 还 会 逐渐 提高 ， 这 种 趋势 会 变 得 更 加 明 


在 这 种 情况 下 ， 虽 然 使 用 廉价 的 CPU 也 是 一 个 解决 方案 ， 但 是 实体 
CPU 的 价格 及 耗 电 量 等 都 不 具有 优势 ， 因 此 就 会 导致 为 了 文 撑 小 型 务 
而 花费 较 大 成 本 的 情况 。 在 Hatena， 通 过 引进 虚拟 化 技术 Xen ， 实 现 
了 更 有 效 的 服务 需 资 源 的 利用 。 


使 用 Xen” ， 可 以 实现 在 1 台 物 理 服 务 器 《〈 母 机 ) 上 提供 多 台 虚 拟 服务 
器 《〈 子 机 ) ， 但 子 机 分 配 的 资源 要 在 母 机 内 存 、 硬 盘 和 负载 容许 的 条 件 


于 进行 ， 


| 7 URL http://www.xen.org/ 
目前 Hatena 的 标准 配置 是 ， 将 首先 局 动 的 母 机 的 操作 系统 (Xen 的 术 

语 为 Dom0 ) 用 于 管理 ， 仅 为 其 分 配 最 低 限 度 的 硬盘 和 和 内存， 另外 生成 
石 干 个 子 机 的 操作 系统 〈Xen 的 术语 为 DomU) 。 例 如 ， 用 两 合 服务 需 
建立 AP 服务 器 的 DomU 和 多 主 数 据 库 的 DomU， 这 里 准备 两 台 的 原因 
是 为 了 进行 见 余 ， 实 现 当 一 台 服 务 器 出 现 人 硬件 故障 时 ， 也 可 以 分 别 保留 
一 个 AP 服务 器 和 数据 库 的 DomU。 之 所 以 分 离 AP 服务 器 和 数据 库 ， 

是 为 了 方便 在 未 来 服务 成 长 时 将 各 个 DomU 部 贰 到 不 同 的 服务 器 。 


此 外 ， 数 据 库 服 务 器 的 内 存 容量 和 1/O 性 能 容易 成 为 瓶颈 ，AP 服务 器 
的 CPU 性 能 容易 成 为 瓶颈 。 因 此 ， 通 过 将 数据 库 服务 器 剩余 的 CPU 资 
源 配 入 到 AP 服务 器 的 DomU 上 ， 这 样 就 能 够 充分 利用 CPU 及 IO 资 
源 了 。 


Hatena 通过 这 一 方式 逐步 推进 了 基础 设施 资源 的 有 效 利 用 (图 
6.1.3) ， 目 前 物理 服务 器 的 台数 是 350 台 左 右 ， 虚 拟 的 子 机 服务 器 数量 
要 比 物理 服务 器 多 20% 左右 。 


Core2 | 上 Core2 | 。 服务 器 。 ©Core2 服务 器 数量 
Duo Duo Pa QUad: Bd,renae or 时 
-一 一 数量 减 半 re 成 小 20% ~30% 


图 6.1.3 ”基础 设施 资源 的 有 效 利用 
鉴于 每 台 服 务 器 的 耗 电量 会 随 着 资源 利用 率 的 提高 而 增加 ， 因 此 单 台电 


源 实际 连接 的 服务 器 台数 要 比 想 象 中 少 。 
不 安装 无 用 的 零件 
提高 电源 效率 的 另 一 个 方法 就 是 不 安装 无 用 的 零件 。 比 如 ， 不 安装 廉价 
的 内 存 、 控 制 硬盘 容量 、 不 组 装 无 用 的 RAID 等 。 现 在 Hatena 正在 引 
入 原本 就 没有 人 硬盘 的 无 各 服 务 器 。 
无 可 服 务 器 ， 顾 名 思 义 ， 就 是 没有 硬盘 的 服务 器 ， 它 的 优点 是 能 够 减少 
耗 电量 、 减 少 硬件 故障 发 生 率 、 容 易 通 过 网 络 引 导 修 改 所 部 署 的 服务 的 
配置 。 缺 点 在 于 不 能 上 自行 司 动 、 日 志 等 不 能 在 本 地 保存 、 相 对 于 有 盘 服 
务 右 运行 不 那么 稳定 等 。 
Hatena 的 无 盘 服 务 器 有 以 下 几 个 特点 : 

。 通过 网 络 引导 和 DHCP 进行 服务 器 作用 的 配置 

。 基于 虚拟 化 技术 的 高 维护 性 


。 通过 联合 文件 系统 ? 和 文件 服务 器 进行 松 耦合 


8 即 Aufs。Anufs 是 Another Unionfs 的 简称 ， 是 一 个 类 似 于 Unionfs 的 可 堆 县 联合 文件 系统 。 
URL http://aufs.sourceforge.net/ 


实际 上 ， 文 件 服务 器 启动 后 ， 会 按照 如 下 流程 依次 启动 : 
。 通 过 DHCP， 根 据 MAC 地 址 获取 IP 地 址 和 磁盘 映像 的 路 径 


。 在 初始 root 上 获取 磁盘 映像 ， 并 将 已 经 获取 磁盘 映像 的 root 作为 
实体 root 进行 挂 载 


。 月 动 实 体 root 


通常 只 在 启动 时 才 需 要 和 外 部 文件 服务 器 及 DHCP 服务 器 等 进行 连接 ， 
在 系统 局 动 后 ， 即 使 切断 和 这 些 服务 器 的 连接 也 可 以 继续 运行 。 在 局 动 
后 ， 大 需要 部 团 应 用 程序 等 ， 文 件 将 会 被 更 新 ， 这 里 所 更 新 的 内 容 会 自 
动 写 回 到 磁盘 映像 中 ， 用 户 在 使 用 时 甚至 不 会 察觉 到 这 是 无 盘 服务 器 。 


使 用 无 盘 服 务 器 ， 例 如 添加 新 的 后 端 服务 器 进行 负载 均衡 时 ， 只 需 改 写 
DHCP 的 配置 文件 ， 并 局 动 相 应 的 服务 器 ， 服 务 器 就 能 够 目 动 下 载 合 适 
的 磁盘 上 映像， 并 将 其 投入 使 用 。 


6.1.5 为 了 自律 的 基础 设施 而 努力 


在 这 一 两 年 中 ，Hatena 的 基础 设施 在 负载 均衡 、 元 余 、 提 高 资源 利用 率 
方面 积累 了 不 少 经 验 ， 现 在 已 经 拥有 一 套 能 够 承 党 相当 规模 的 访问 量 的 
服务 器 并 实现 高 效 运作 了 。 不 过 还 有 一 些 地 方 需要 依靠 专业 人 员 的 设 
置 ， 或 者 需要 反复 手动 进行 微调 。 平 时 随 着 并 发 量 的 增加 ， 服 务 数量 及 
类 型 也 在 持续 增加 ， 在 基础 设施 技术 方面 ， 例 如 在 虚拟 化 技术 上 ， 需 要 
调整 的 地 方 还 有 很 多 。 随 着 运作 效率 的 提升 ， 服 务 器 资源 余 量 会 越 来 越 
少 。 因 此 也 很 容易 想象 到 在 不 久 的 将 来 ， 管 理 者 将 在 这 些 细 市 的 调整 上 
化 费 越 来 越 多 的 时 间 。 


希望 今后 可 以 根据 这 些 在 已 有 设备 的 调试 方面 所 积蓄 的 经 验 ， 使 各 服务 
器 的 调整 、 增 设 、 撤 除 逐 步 实现 上 自动 化 。 例 如， 监控 Apache 的 进程 ， 
如 果 负 载 增 大 就 增加 MaxProcess， 如 果 进 程 的 内 存 消 耗 增 加 就 缩小 
MaxProcess 和 RequestsPerChild， 这 些 想 必 很 快 束 能 实现 。 此 外 ， 如 果 
能 将 无 盘 服 务 器 的 运用 很 好 地 推 入 正轨 ， 似 乎 也 能 很 容易 实现 动态 增加 
或 减少 某 一 作用 的 服务 器 。 


像 这 样 不 断 地 突破 手动 的 目 主 控制 ， 基 础 设施 就 会 变 得 像 生物 一 样 。 各 
服务 器 独立 运行 ， 出 现 故 障 就 目 行 修复 ， 寿 负载 增加 就 强化 该 部 分 ， 寿 
长 期 不 使 用 就 让 其 弱化 。 当 然 硬件 层面 的 工作 仍 需 人 工 进行 ， 但 针对 可 
以 用 软件 完成 的 逻辑 部 分 ， 则 构筑 像 生 物 那样 目 律 项 强 的 “生态 系统 ”。 
笔者 认为 ， 这 将 是 基础 设施 的 终极 形态 。 


6.2 DSAS 的 内 容 


6.2.1 什么 是 DSAS 

DSAS (Dynamic Server Assign System) 是 KLab 公司 ?使 用 的 服务 器 . 
网 络 基础 设施 的 统称 。 目 前 在 东京 和 福冈 的 数据 中 心 有 300 多 台 服 务 占 
运行 着 (照片 6.2.1) 。 


9 URL http://www.klab.com/jp/ 
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照片 6.2.1 DSAS 的 外 观 

本 节 将 对 DSAS 的 特征 和 内 部 结构 进行 介绍 。 

6.2.2 DSAS 的 特征 

首先 我 们 来 看 一 下 DSAS 的 几 大 特征 ， 然 后 再 逐条 进行 讲解 。 
。 一 个 系统 容纳 多 个 网 站 


。 使 用 开源 软件 搭建 


。 ， 网 络 服务 都 不 会 停止 
。 服务 器 增设 非常 简单 
。 故障 修复 非常 简单 

一 个 系统 容纳 多 个 网 站 


每 当 设 立新 的 网 站 时 都 要 重新 搭建 服务 局 或 网 络 ， 此 时 整体 拓扑 结构 惑 
如 图 6.2.1 所 示 。 在 这 个 拓扑 中 ， 当 网 站 A 的 流量 剧 增 时 ， 即 便 此 时 的 
服务 器 已 经 无 法 进行 这 些 处 理 ， 也 不 能 挪用 网 站 B 的 服务 器 来 帮助 其 进 
行 处 理 ， 因 此 就 需要 根据 访问 高 峰 时 所 需 的 服务 器 台数 ， 为 网 站 A 增 

设 服务 器 。 知 平时 的 访问 量 都 比较 多 的 话 那 还 能 接受 ， 但 如 果 只 是 为 了 
0 高 峰 〈( 比 如 有 优惠 活动 时 〉 而 增设 服务 器 的 话 ， 成 本 就 太 


若 网 站 A 的 访问 量 增加 ， 
则 需要 增设 服务 器 


DO 


二 层 交 换 机 


图 6.2.1 分 别 为 各 网 站 搭建 系统 


DSAS 的 拓扑 结构 如 图 6.2.2 所 示 ， 多 个 网 站 共用 一 个 系统 。 而 且 网 站 
使 用 的 服务 器 也 可 以 动态 地 进行 改变 。 如 此 一 来 ， 即 使 网 站 A 的 访 
问 量 剧 增 ， 也 可 以 暂时 利用 网 站 B 的 服务 器 来 应 对 。 让 一 个 系统 容纳 多 


个 网 站 ， 可 以 避免 服务 器 资源 的 浪费 。 


| “DsAs”* 的 名 字 就 是 由 “可 以 智能 进行 服务 器 的 调配 ”这 一 特点 得 来 的 。 
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图 6.2.2 一 个 系统 容纳 多 个 网 站 


使 用 开源 软件 搭建 


DSAS 的 服务 器 架构 如 图 6.2.3 所 示 。 虽 然 根据 作用 分 为 了 “前 站 
器 ”和 “后 端 服务 器 ”， 但 全 部 的 服务 器 都 是 基于 Linux (Debian 


服务 


GNU/Linux 4.0) 这 一 开源 系统 搭建 的 。 表 6.2.1 是 使 用 的 软件 清单 。 关 
于 前 端 服 务 器 和 后 端 服 务 器 ， 请 参考 表 6.2.2 和 表 6.2.3。 
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图 6.2.3 ”DSAS 的 服务 器 架构 
表 6.2.1 主要 使 用 的 软件 
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通过 使 用 Linux 搭 建 的 负载 均衡 器 。 可 以 将 终端 用 户 的 请 求 分 流 到 不 同 的 web 服 务 器 
进行 处 理 。 这 里 可 以 利用 已 经 扩展 了 健康 检查 功能 的 keepalived， 编 写 独自 的 维护 


为 了 能 够 动态 修改 服务 器 的 配置 ， 必 须 保 证 “所 有 服务 器 的 内 容 相 同 ”。 因 此 ， 在 更 


新 网 站 时 最 好 只 对 主 服 务 器 部 署 ， 其 后 再 运行 专用 的 命令 扩展 到 所 有 服务 器 


为 终端 用 户 提供 web 服务 的 服务 器 。 在 所 有 的 服务 堪 上 部 嗜 所 有 的 网 站 ， 就 可 以 让 
任何 服务 器 为 任何 网 站 提供 服务 。Web 服 务 器 使 用 Apache，AP 服 务 器 使 用 Tomcat 及 


数据 库 服 务 器 使 用 MySQL。 这 是 由 一 台 Master 和 两 台 Slave 构 成 的 三 台 主 机 的 最 小 架 
构 ， 有 具体 还 可 根据 需要 增加 Slave 的 台数。 当 Master 由 于 故障 而 停止 时 ， 将 把 Slave 转 
换 为 Master 进 行 修 复 


TS (Temporary Share ) 
保存 临时 数据 《缓存 或 会 话 数据 等 ) 的 数据 库 。 使 用 了 软件 repcached 〈 见 下 文 ) ， 
并 在 该 软件 上 增加 了 同步 到 memcached 的 功能 

PS (Permanent Share) 、BK (Backup) 
保存 永久 性 数据 《网 站 内 容 数据 等 ) 的 存储 服务 器 。 利 用 第 3 章 介 绍 的 DRBD 技 术 实 
现 了 元 余 。 这 里 不 仅 可 以 应 用 于 NFS， 而 且 在 HITP 上 也 可 以 实现 读 取 文 件 的 操作 。 
BK 是 备份 服务 器 ， 定 期 备份 PS 服务 器 的 文件 


了 负载 均衡 器 。 与 LVS 一 样 使 用 keepalived 搭 建 ， 被 用 于 DNS 或 MySQL 的 负载 分 流 


答 


志 等 的 服务 器 。 收 集 各 Web 服 务 器 的 日 志 并 合并 ， 被 用 于 
等 。 此 外 还 使 用 了 5.2 节 中 介绍 的 Ganglia， 来 维持 各 服务 器 的 正常 运行 


无 论 切 断 任 何 地 方 ， 网 络 服务 都 不 会 停止 


图 6.2.4 是 网 络 的 物理 接线 图 。 因 为 完全 实现 了 元 余 ， 所 以 切断 任何 地 

方 网 络 都 不 会 中 断 。 这 里 对 二 层 交 换 机 使 用 了 RSTP 进行 见 余 ， 服 务 器 
方面 则 使 用 了 驱动 绑 定 。Internet 线路 有 两 条 ， 即 使 一 条 链 路 失效 ， 也 

没有 什么 影响 。 


图 6.2.4 物理 接线 图 


服务 器 增设 非常 方便 


主 服 务 器 以 外 的 服务 器 ， 全 部 实现 了 网 络 引 导 。 网 络 引 导 的 优 点 是 增设 
服务 器 时 不 需要 索 琐 的 部 普 工 作 。 即 使 是 刚 买 的 磁盘 轩 新 的 服务 器 ， 只 
要 在 BIOS 中 开局 网 络 引 导 ， 就 能 并 即 局 动 操作 系统 。 根 据 启动 时 所 输 
入 的 参数 ， 可 以 让 它 成 为 Web 服务 器 、 负 载 均衡 喜 或 数据 库 服务 需 。 


故障 修复 非常 简单 


使 用 RSTP 进行 二 层 交 换 机 的 宛 余 的 情况 并 不 少见 ， 不 过 ， 图 6.2.4 的 

特点 是 Internet 线路 与 二 层 交 换 机 是 直接 连接 的 。 负 载 均 衡器 是 Linux 

机 器 ， 行 为 与 其 他 服务 器 类 似 。 因 此 ， 若 Internet 线路 直接 连接 负载 均 
衡器 ， 必 须 在 两 台 服 务 器 (负载 均衡 器 ) 上 增加 网 卡 。 当 负载 均衡 器 由 
于 故障 等 停止 时 ， 还 需要 为 备份 机 占 增 加 网 卡 并 重新 连接 网 线 。 


为 了 解决 这 个 麻烦 ， 这 里 让 二 层 交 换 机 来 容纳 Internet 线路 ， 将 所 有 服 
务 吉 的 物理 线路 汇集 在 一 起 “详情 见 3.3 节 ) 。 当 负载 均衡 器 出 现 故障 
时 ， 选 定 一 合 服务 器 作为 蔡 代 机 并 重新 局 动 。 此 时 ， 通 过 网 络 引导 的 局 
动 参数 指示 其 为 负载 均衡 闫 。 这 项 工作 全 部 可 以 远程 进行 ， 即 使 不 到 数 
据 中 心 也 能 实现 故障 的 修复 工作 ， 实 现 了 彻底 的 元 余 结 构 。 


6.2.3 系统 架构 的 详情 
DSAS 是 由 各 种 开源 软件 构成 的 。 这 里 将 选取 DSAS 的 几 个 特点 ， 对 其 


中 精心 设计 的 地 方 以 及 容易 出 问题 的 地 方 加 以 介绍 。 
使 用 驱动 绑 定 的 原因 


当 以 元 余 为 目的 使 用 多 块 网 卡 时 ， 可 能 需要 考虑 为 各 个 网 卡 分 配 卫 地 
址 ， 但 是 结果 未 必 会 像 想 象 中 的 那样 。 例 如 ， 假 设 为 某 服务 器 的 eth0 
分 配 了 192.168.0.1/24， 为 ethl 分 配 了 192.168.0.2/24。 这 时 如 果 从 其 他 
机 器 给 这 些 地 址 发 送 ping ， 这 些 地 址 都 能 正常 返回 应 答 。 但 是 ， 如 果 
拔 掉 eth0 的 LAN 网线 ， 即 使 ethl 的 LAN 网 线 连接 正常 ， 也 无 法 与 
192.168.0.2 通信 了 。 确 认 一 下 ARP 表 就 会 得 知 这 些 地 址 都 被 分 配 了 
eth0 的 MAC 地 址 。 也 就 是 说 ， 即 使 实际 使 用 了 两 块 网 卡 ， 实 际 上 也 只 
有 一 块 网 卡 可 以 进行 通信 。 


分 配 了 多 个 IP 地 址 的 服务 器 路 由 选择 表 (Routing Table) 如 图 6.2.5 所 
示 。 像 这 样 在 对 同一 网 络 使 用 多 个 入 口 的 情况 下 ， 基 于 路 由 选择 表 上 的 
规则 ， 发 往 192.168.0.0/24 的 数据 包 必 须 从 eth0 发 出 。 这 种 行为 是 不 考 
网 卡 链 路 状态 的 ， 即 使 未 连接 LAN 网 线 ， 也 会 尝试 从 eth0 发 送 数据 


# route -n 

Kernel IP routing table 

Destination Gateway Genmask Flags Metric Ref Use Iface 
192.168.6.6 0.0.0.0 255.255.255.06 JU 6 6 8 eth@ < 肯定 使 月 


192.168.6.6 0.0.0.0 255.255.255.6 U 6 6 8 _ eth1 < 不 会 使 月 


图 6.2.5 使 用 多 块 网 卡 时 的 路 由 选择 表 
如 果 关 闭 发 往 eth0 的 路 由 选择 表 ， 虽 然 可 以 使 用 eth1 与 其 他 服务 右 通 
信 ， 但 此 时 必须 清空 ARP 缓存 列表 ， 或 者 从 ethl 发 送 Gratuitous ARP 
通知 MAC 地 址 的 变更 。 因 此 在 网 卡 的 见 余 处 理 中 ， 必 须 进行 以 下 处 
理 : 

。 确 认 网 卡 的 链 路 状态 

。 如 果 链 路 失效 ， 则 切换 网 卡 


。 发送 Gratuitous ARP 


驱动 绑 定 实现 了 这 些 功能 。 如 果 在 虚拟 接口 上 (bond0 等 ) 注册 的 物理 
接口 (eth0、eth1 等 ) 发 生 链 路 故障 ， 就 会 自动 切换 到 链 路 正常 的 网 卡 
并 发 送 GratuitousARP。 这 个 功能 对 接 入 到 二 层 交 换 机 的 元 余 网 络 来 说 
非常 方便 。 

DRBP 实现 故障 转移 时 的 注意 事项 

存储 服务 器 使 用 DRBD 进行 了 元 余 ， 但 是 在 发 生 故 障 进行 故障 转移 时 
有 几 点 需要 注意 。DRBD 中 有 “on-io-error”* 这 个 配置 项 目 。 在 人 硬盘 和 
RAID 控制 器 出 现 故 障 导 致 物理 设备 的 访问 出 错时 ， 该 项 目 会 指定 接 下 
来 进行 什么 样 的 处 理 ， 具 体 可 以 设 定 以 下 数值 。 


。pass_on : 通知 上 层 《〈 文 件 系 统 ) 磁盘 错误 并 继续 运行 


。panic : 内 核 朋 涡 〈Kernel Panic ) 

。 detach : 分 离 物理 设备 并 继续 运行 
默认 设 定 为 detach。 笔 者 也 基于 下 列 原 因 选 择 了 detach。 

。 一 旦 发 生 磁 检 错误 就 造成 内 核 朋 尝 会 让 人 感觉 过 于 极端 
发 生 磁 盘 错 误 时 ， 故 障 转移 是 最 为 理想 的 行为 


设置 为 pass_on 的 情况 下 ， 除 了 文件 访问 失败 的 进程 以 外 ， 其 他 
异 第 都 无 法 检测 出 来 


设置 为 detach 的 情况 下 ， 因 为 能 够 立即 监控 出 异常 ， 所 以 能 够 顺 
利 进行 故障 转移 


设置 为 detach 的 情况 下 ， 操 作 系 统 能 够 照常 运作 ， 调 查 故障 明细 
时 会 较为 轻松 


。 因为 默认 为 detach， 上 所 以 不 修改 直接 使 用 肯定 也 没有 问题 
当主 服务 器 Primary 遭遇 磁盘 错误 时 ， 最 好 能 进行 如 下 处 理 : 
自主 服务 器 Primary 隔离 磁盘 (操作 系统 继续 运行 ) 


@ 实施 故障 转移 的 操作 
@ 将 备用 服务 器 Secondary 升格 为 主 服务 器 Primary 
但 实际 上 往往 不 是 这 样 。 一 旦 物理 磁盘 遭遇 故障 ， 主 服务 器 Primary 会 


隔离 磁盘 继续 运行 ， 但 备用 服务 器 Secondary 则 会 发 生 内 核 骨 尝 而 终止 
运作 。 此 时 ， 各 个 服务 器 的 内 核 日 志 中 会 输出 如 图 6.2.6 所 示 的 内 容 。 


e 主 服务 器 Primary 的 日 志 

kernel: drbd1: Local IO failed. Detaching... 

kernel: drbd1: Sending NegDReply. I guess it gets messy. 
kernel: drbd1: Notified peer that my disk is broken. 


e 备 用 服务 器 Secondary 的 日 志 


kernel: drbd1: Got NegRSDReply. WE ARE LOST. We lost our up-to-date disk. 
kernel: Kernel panic - not syncing: drbd1: Got NegRSDReply. WE ARE 
LOST. We lost our up-to-date disk. 


图 6.2.6 ”磁盘 故障 时 的 内 核 日 志 
如 果 主 服务 器 Primary 对 设备 进行 了 隔离 操作 ， 就 会 问 备 用 服务 器 
Secondary 发 送 NegDReply 信息 。 备 用 服务 器 Secondary 在 收 到 
NegDReply 信息 后 ， 束 会 发 生 内 核 朋 尝 并 终止 运作 。 这 里 的 源 代 人 码 如 代 
人 码 清单 6.2.1 所 示 1 。 

11 这 是 drbd-0.7.25 软件 的 源码 。 


代码 清单 6.2.1 drbd/drbd_receiver.c 


STATIC int got NegRSDReply(drbd dev *mdev, Drbd Header* h) 
{ 

sector 七 Sector ; 

Drbd BlockAck Packet *p = (Drbd BlockAck Packet*)h; 


sector = be64 to cpu(p->sector); 
D_ASSERT(p->block id == ID SYNCER); 


drbd rs complete io(mdev,sector); 


drbd panic("Got NegRSDReply. WE ARE LOST. We lost our up-to-date disk.\n" 


// THINK do we have other options, but panic? 
// what about bio endio, in case we don't panic ?? 


return TRUE; 


至 少 这 是 按照 开发 者 的 意图 运行 的 ， 所 以 并 不 能 说 有 什么 问题 。 奴 怕 开 
发 者 是 出 于 “即使 停止 也 要 保护 数据 ”的 意图 进行 实施 的 ， 但 是 如 果 让 遭 
遇 故 障 的 服务 器 Primary 继续 运行 ， 而 让 备用 服务 器 Secondary 终止 运 

行 的 话 ， 就 不 能 进行 故障 转移 的 操作 。 因 此 ， 这 里 将 on-io-error 指定 为 
panic， 让 出 现 故 障 的 服务 器 终止 运行 ( 磁 檀 遭遇 错误 时 中 断 连接 )。 


配置 SSL 加 速 器 


在 使 用 HTTPS 的 网 站 中 ， 如 果 在 Web 服务 器 上 处 理 SSL 请 求 ， 则 会 有 
性 能 降低 的 风险 。 虽 然 也 可 以 如 图 6.2.7 那样 使 用 硬件 加 速 器 来 减轻 服 
务 器 的 负载 ， 但 是 在 DSAS 中 ， 使 用 的 是 stone ** 这 款 SSL 的 软件 加 速 
和 


12 URL http://www.gcd.org/sengoku/stone/Welcome.en.html 
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{ Backup ) 
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图 6.2.7 硬件 加 速 器 


硬件 加 速 器 多 为 比较 昂 贯 的 产品 ， 但 是 为 了 能 够 快速 地 进行 大 量 SSL 
的 处 理 ， 一 般 使 用 经 过 见 余 的 两 台 设 备 进行 处 理工 作 。 还 有 一 些 其 他 类 
型 的 产品 ， 如 带 有 加 速 器 功能 的 网 卡 或 PCI 卡 等 ， 直 接 插 在 Web 服务 
器 上 即 可 减轻 CPU 负载 。 但 在 使 用 stone 这 款 软件 加 速 器 时 ， 鉴 于 单 台 
服务 器 处 理 能 力 较 低 ， 所 以 会 像 图 6.2.8 那样 ， 将 请 求 分 流 到 多 台 服 务 
硕 上 进行 处 理 。 
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( stone ) 
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SSL 软件 
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Web 服务 器 
图 6.2.8 软件 加 速 器 


stone 在 处 理 HITPS 连接 时 ， 将 复合 的 HITP 请 求 经 由 负载 均衡 器 传递 
给 了 Web 服务 器 。 因 此 在 该 结构 中 进行 转 接 时 ， 源 IP 地 址 会 成 为 加 速 
器 的 IP 地址 ， 所 以 某 些 IP 地 址 的 情况 下 就 可 能 会 遇 到 访问 受到 限制 的 
问题 。 因 此 ， 需 要 将 stone 的 配置 改 为 像 代 码 清单 6.2.2 那样 ， 并 将 客 
户 端 卫 地 址 嵌入 到 HTTP 消息 头 的 “X-Orig-Client:* 中 。Web 服务 器 通 
过 查看 这 个 消息 头 就 能 知道 实际 上 是 从 何 处 发 出 请 求 的 了 。 


代码 6.2.2 stone 的 配置 


-Z default 

-Zz sid ctx='ssl.example.com:443"' 

-Zz CApath=/usr/local/etc/ssl/certs/ 
-Zz cert=/usr/local/etc/ssl/cert.pem 


-Z key=/usr/local/etc/ssl1/priv.pem 
11s:86/proxy 443/ssl 'X-Orig-Client: \a' -- 


在 Web 应 用 程序 中 ， 有 时 还 需要 辨别 客户 端 是 通过 HTTP 连接 的 还 

通过 HTTPS 连接 的 。 如 果 是 通过 HTTPS 连接 的 ， 则 Apache 的 
mod_ssl 中 会 将 环境 变量 设置 为 HTTPS=on 。PHP、Tomcat 等 AP 服务 器 
将 根据 这 个 环境 变量 进行 判断 ， 但 是 如 果 请 求 经 由 stone 的 话 ， 全 部 连 
接 都 会 变 成 HTTP 连接 ， 所 以 这 里 在 配置 文件 httpd.conf 中 添加 如 代码 
清单 6.2.3 所 示 的 设 定 。 


代码 清单 6.2.3 Apache 的 配置 


<IfModule mod_setenvif.c> 
SetEnvif Remote Addr "^192\.168\.1\." HTTPS=on 
SetEnvif X-Orig-Client "^$" I!HTTPS 


</IfModule> 


Remote_Addr 会 与 运行 有 stone 的 服务 器 的 地 址 进行 匹配 ， 同 时 设 定 
HTTPS=on 。 接 下 来 ， 查 看 X-Orig-Client， 若 此 处 为 空 就 表示 不 经 由 
stone， 人 然后 清除 环境 变量 。 这 样 一 来 ， 束 只 限 在 经 由 stone 连接 的 情况 
下 ， 才 会 进行 HTTPS=on 的 设 定 。 


扩展 健康 检查 功能 


由 于 在 DSAS 的 负载 均衡 器 中 使 用 了 keepalived 工具 ， 因 此 可 以 通过 添 
加 keepalived 的 补丁 《〈keepalived-extcheck) 3 对 健康 检查 功能 进行 扩 
展 。 


13 关于 keepalived-extcheck， 请 参考 如 下 链接 (日文 )。 
URL http://d.hatena.ne.jp/hirose31/20090929/1254154720 


通过 应 用 此 keepalived-extcheck， 就 可 以 进行 如 下 健康 检查 。 
。FTP_CHECK : 检查 FTP 服务 器 是 否 能 应 答 NOOP 命令 
。DNS_CHECK : 检查 DNS 服务 器 是 否 能 返回 响应 
。 SSL_HELLO : 检查 服务 器 是 否 能 应 答 SSL 握手 
keepalived 中 还 添加 了 MISC_CHECK 功能 ， 据 此 来 进行 一 些 原 本 不 支 
持 的 健康 检查 。 有 具体 来 说 就 是 调用 外 部 命令 ， 由 结束 代码 取得 健康 检查 
的 结果 ， 但 这 里 又 会 出 现 以 下 问题 : 


。 因此 消耗 的 性 能 成 本 会 
比较 


。 如 果 命 令 没 能 目 己 终止 ,进程 会 不 断 增 加 并 累积 得 越 来 越 多 


关于 DNS 和 FTP 的 健康 检查 ， 可 以 在 进行 MISC_CHECK 后 做 出 如 代 
码 清单 6.2.4 那样 的 配置 。 但 是 如 果 健 康 检查 的 周期 比较 短 ， 比 如 检查 
周期 是 几 秒 钟 的 时 候 ， 调 用 外 部 命令 就 相对 比较 困难 。 因 此 我 们 可 以 像 
代码 清单 6.2.5 那样 ， 修 改 keepalived 本 身 。 这 样 相 较 于 
MISC_CHECK， 可 以 大 幅 减 少 健康 检查 的 性 能 成 本 。 


代码 清单 6.2.4 通过 MISC_CHECK 对 DNS 和 FTP 进行 健康 检查 


real server 192.168.1.1 53 { 
MISC CHECK { 
misc path "/usr/bin/dig +time=661 +tries=2 0192.168.1.1 localhost.1local 
misc timeout 5 
} 
} 
real_server 192.168.1.1 21 { 
MISC CHECK { 


misc path "echo -en 'NOOP\r\nQUIT\r\n' | nc -w 5 -n 192.168.1.1 21 | eg 
misc timeout 5 
} 
} 


代码 清单 6.2.5 通过 扩展 的 功能 对 DNS 和 FTP 进行 健康 检查 


real server 192.168.1.1 53 { 
DNS_CHECK { 
port 53 
timeout 5 
retry 3 
type A 
name localhost.localdomain 


} 


} 
real server 192.168.1.1 21 { 
FTP_CHECK { 


host { 
connect ip 192.168.1.1 
connect port 21 
} 
connect timeout 5 
retry 3 
delay_before retry 5 


通过 keepalived 中 的 SSL_GET 可 以 取得 HTTPS 网 站 的 状态 代码 。 但 需 
要 留意 的 是 每 次 健康 检查 时 都 要 进行 加 密 通信 ， 这 样 就 产生 了 一 个 问 
题 ， 那 就 是 在 使 用 HTTPS 的 时 候 ， 不 能 同时 使 用 需要 进行 客户 端 认 证 
的 页 面 以 及 非 HTTPS 的 协议 (SMTPS 等 ) 。 


用 补丁 扩展 的 SSL_HELLO 会 尝试 进行 SSL 握手 来 检查 服务 器 是 否 发 
送 证 书 。 因 为 此 处 并 不 依赖 于 应 用 软件 协议 ， 所 以 也 能 适用 于 需要 客户 
端 认 证 的 网 站 ， 以 及 SSL 加 速 器 的 健康 检查 。 另 外 ， 因 为 这 里 不 进行 
加 密 通 信 ， 所 以 还 具有 不 加 重 服务 器 负载 的 好 处 。DSAS 使 用 了 
SSL_HELLO 进行 stone 的 健康 检查 。 


既 方 便 又 安全 地 使 用 负载 均衡 需 
负载 均衡 露 的 维护 工作 的 主要 是 “配置 虚拟 服务 器 ”和 "分配 真实 服务 


器 ”两 种 。 这 项 工作 实际 上 惑 是 修改 配置 文件 〈keepalived.conf) 。 但 是 
当 网 站 或 服务 器 数量 不 断 增 多 时 ， 将 变 得 很 难 直 接 编辑 4 。 因 此 就 需 


建立 能 够 方便 且 安 全 地 维护 配置 文件 的 机 制 。 


14 现在 DSAS 的 keepalived.conf 有 2500 行 以 上 。 


首先 ， 忽 略 keepalived.conf 的 语法 ， 只 考虑 维护 时 需要 什么 接口 。 维 护 
负载 均衡 器 的 目的 其 实 就 是 在 真实 服务 器 上 对 虚拟 服务 器 进行 增加 、 缩 
减 或 改变 分 配 资源 等 工作 。 为 了 恰当 地 进行 分 配 管理 ， 必 须 能 够 直观 地 
掌握 目前 具体 哪个 网 站 分 配 到 了 哪 一 个 真实 服务 嚣 。 为 此 ， 这 里 就 写 下 
如 下 的 配置 文件 。 最 左边 的 w101、w102 是 真实 服务 器 的 主机 名 称 
SiteA、SiteB 是 网 站 名 称 〈 虚 拟 服务 器 ) 。 这 个 文件 用 Klab 的 术 ; 吾 来 说 
就 叫 作 “MATRIX”。 该 名 字 的 由 来 是 “ 因为 像 数学 中 的 矩阵 模型 ”。 


: SiteA 

: SiteA SiteC 
: SiteB SiteC 
: SiteB SiteC 


: SiteB 


格式 看 起 来 很 简单 ， 但 这 里 的 格式 到 底 是 : 网 站 名 称 : 服务 器 服务 器 ”好 
呢 ? 还 是 “服务 器 : 网 站 名 网 站 名 ”好 呢 ? 笔者 着 实 纠 吉 了 一 段 时 间 。 如 
果 是 要 掌握 “给 哪 一 个 网 站 分 配 了 哪 一 个 服务 器 *"， 显 然 前 者 更 容易 理 
解 。 但 是 ， 实 际 上 大 多 情况 下 都 是 在 服务 器 出 现 故障 导致 配给 到 网 站 的 
资源 失衡 ， 或 者 移 至 其 他 服务 器 时 编辑 MATRIX 的 。 例 如 当 w103 出 现 
故障 ， 需 要 切换 至 备用 服务 器 w106 时 ， 如 果 这 是 后 者 的 情况 ， 因 为 只 
需 调换 w103 及 w106 行 ， 所 以 只 进行 一 次 剪 切 & 粘贴 即 可 ; 但 如 果 是 
前 者 的 话 ， 就 必须 将 字符 串 “w103” 置 换 为 “w106” 才 行 。 因 此 ， 在 
MD 中 表示 “哪个 服务 器 为 哪个 网 站 提供 支撑 * 时 采用 了 后 者 的 格 

工 No 


之 后 貌似 只 需 参 照 MATRIX 的 格式 来 编写 生成 keepalived.Conf 的 脚本 
就 可 以 了 ， 但 是 因为 MATRIX 中 不 包括 有 关 虚 拟 服务 器 的 信息 ， 所 以 
除 此 之 外 还 需要 写 一 个 如 代码 清单 6.2.6 那样 的 定义 文件 。 这 里 使 用 了 
YAML 格式 来 记录 配置 虚拟 服务 器 所 需 的 参数 。DSAS 通过 自身 的 Perl 
脚本 该 取 MATRIX 和 这 个 定义 文件 ， 其 后 使 用 Template-Toolkit 就 可 以 
生成 keepalived.conf 了 。 代 码 清 单 6.2.7 是 Template-Toolkit 的 模板 。 


代码 清单 6.2.6 ”虚拟 服务 器 的 定义 


PROJECT: SiteA 
SERVICE : 
- 160.0.0.1:86 


lb _algo: lc 

lb kind: DR 
protocol: TCP 
HEALTH_TYPE: HTTP_GET 


HTTP_GET : 
path : /health.html 
status_ code: 200 
connect port: 80 
connect timeout: 5 


代码 清单 6.2.7 ”keepalived.conf 的 模板 


virtual server group [% PROJECT %] { 
[% FOREACH S=SERVICE -%] 
[% S.replace(':','" ') %] 
[% END -%] 
} 
virtual server group [% PROJECT %] { 
lb_algo [% lb _algo %] 
lvs method [% lb kind %] 
protocol [% protocol %] 
[% FOREACH R=REAL -%] 
real server [% R %] [% real port %] { 
weight 1 
inhibit on failure 
[% SWITCH HEALTH_TYPE -%] 
[% CASE 'HTTP_GET' -%] 
HTTP_GET { 
url { 
path [% HTTP_GET.path %] 
status code [% HTTP_GET.status code %] 
} 
connect port [% HTTP_GET.connect port %] 
connect timeout [% HTTP_GET.connect timeout %] 
} 
[% CASE 'TCP_CHECK' -%] 
TCP_CHECK { 


connect port [% TCP_CHECK.connect_port %] 
connect timeout [% TCP_ CHECK.connect timeout %] 


[% END -%] 
} 

[% END -%] 

} 


keepalived.conf 中 必须 根据 所 分 配 的 服务 器 台数 来 描述 real_server 部 
分 ， 这 里 使 用 模块 引擎 可 以 更 加 方便 并 安全 地 生成 该 文件 。 代 码 清 单 
6.2.8 就 是 自动 生成 的 keepalived.conf。 


代码 清单 6.2.8 ”上 自动 生成 的 keepalived.con 


virtual server group SiteA { 
106.0.0.1:80 


} 
virtual server group SiteA { 
lb _algo lc 
lvs_method DR 
protocol TCP 
real server 192.168.0.1 80 { 
weight 1 
inhibit on failure 
HTTP_GET { 
url { 
path /health.html 
status_ code 266 
} 
connect_ port 80 
connect timeout 5 
} 
} 
real_server 192.168.0.2 80 1{ 
weight 1 
inhibit on _failure 
HTTP_GET { 
Url { 
path /health.html 
status code 266 
} 


connect port 80 


connect timeout 5 


通过 进行 如 上 操作 ， 在 服务 器 需要 进行 分 配 调整 时 ， 只 需 编 辑 MATRIX 
并 执行 特定 脚本 就 可 以 了 ， 并 不 需要 从 庞大 的 keepalived.conf 中 找 出 变 


更 的 部 分 来 手动 修改 配置 。 
处 理会 话 数 据 


在 负载 分 流 环境 中 ， 鉴 于 用 户 在 浏览 不 同 页 面 时 ， 连 接 到 的 未 必 有 是 同一 
个 服务 器 ， 因 此 不 能 在 服务 器 本 地 文件 里 保存 会 话 数据 ， 而 必须 保存 在 
类 似 数据 库 和 NFS 那样 的 云端 上 ， 这 样 才能 保证 Web 服务 器 可 以 获取 
到 相应 的 资源 ， 但 是 由 于 数据 库 和 NFS 在 访问 集中 时 容易 成 为 瓶 倾 ， 
因此 不 适合 用 来 保存 频繁 更 新 的 会 话 数据 。 


关于 会 话 数 据 的 处 理 ， 下 面 将 对 “memcached” 和 “repcached” 进 行 说 明 。 


memcached 


我 们 最 初 将 高 速 绥 存 服务 器 的 “memcached” 作 为 会 话 存 储 (Session 
Storage) 来 使 用 ， 但 是 因为 memcached 步 等 功能 ， 无 法 备 
份 人 因为 一 旦 丢失 会 话 数据 〈 通 常 为 会 员 登录 或 退出 时 的 会 话 
信息 〉， 束 会 为 在 线 的 会 员 带 来 困扰 。 


另外 ， 会 话 数据 一 旦 丢失 ， 势 必 会 对 用 户 产 生 一 些 影 响 。 例 如 ， 用 户 在 
进入 下 一 页 面 时 突然 返回 到 主页 ， 或 者 丢失 所 输入 的 数据 等 。 为 此 ， 除 
了 使 用 memcached 以 外 ， 还 在 NFS 服务 器 上 使 用 RamDisk 工具 优化 了 
DRBD， 这 样 就 可 以 在 重视 性 能 的 情况 下 选择 memcached， 在 重视 安全 
性 的 情况 下 选择 RamDisk。 类 似 上 述 这 样 ， 可 以 根据 目前 生产 环境 的 情 

况 来 选择 合适 的 会 话 存储 方式 。 


但 是 ， 对 Web 应 用 程序 来 说 ， 实 现 会 话 存储 的 切换 会 很 及 烦 ， 结 果 大 
多 数 情 况 下 都 只 使 用 了 通过 DRBD 儿 余 处 理 后 的 RamDisk。 虽 说 这 里 
己 经 使 用 了 RamDisk 优化 ， 但 终究 还 是 NFS 服务 器 ， 为 了 消除 已 经 过 


期 的 会 话 数 据 ， 必 须 定期 运行 垃圾 收集 器 〈Garbage Collector) 等 ， 男 
外 访问 集中 时 还 容易 造成 瓶颈 的 出 现 。 


repcached 


memcached 在 性 能 和 便利 性 方面 非常 出 色 。 由 于 没有 复制 功能 而 无 法 使 
用 ， 实 在 是 有 些 可 惜 ， 于 是 便 开 发 了 为 memcached 添加 复制 功能 的 


repcached tb 。 


15 关于 repcached 的 详情 ， 请 参考 如 下 链接 。 
URL http://book.51cto.com/art/201202/314930.htm 


repcached 的 运行 情况 如 图 6.2.9 所 示 ， 两 台 服 务 器 为 一 组 ， 双 问 同步 数 
0 都 能 保存 到 双方 的 
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复制 
Key1 J[ Key3 J|[ Key5 


SET/GET SET/GET 


图 6.2.9 ”repcached 的 运行 情况 


如 图 6.2.10 所 示 ， 即 使 一 边 停 止 工 作 了 ， 数 据 也 能 整个 保存 下 来 ， 所 以 
Web 服务 器 只 需 改 变 运行 中 的 repcached 连接 ， 即 可 像 什么 事 都 没有 发 
生 一 样 继续 处 理 。 


repcached 


SET/GET 


图 6.2.10 发 生 故 障 时 的 行为 


运用 memcached 的 服务 器 集群 ， 可 以 癌 多 个 服务 器 进行 负载 分 流 ， 以 
及 在 发 生 故 障 时 切换 到 备用 服务 器 ， 所 以 即使 不 投入 新 的 已 经 安装 了 
repcached 的 服务 器 ， 安 装 有 memcached 的 服务 器 也 可 以 实现 大 部 分 的 
功能 。 


6.2.4 DSAS 的 未 来 


DSAS 系统 是 以 “根据 情况 智能 地 分 配 服务 器 资源 为 目标 命名 的 ， 但 在 
目前 的 DSAS 系统 中 ， 还 尚未 完全 实现 “智能 地 〈Dynamic) 分 配 服务 需 
资源 "”。 如 果 只 邮 其 名 而 不 知 其 原委 ， 可 能 会 对 其 有 更 好 的 印象 ， 例 如 
认为 它 是 可 以 根据 流量 或 连接 数目 动 修改 服务 需 避 构 的 系统 、 服 务 器 损 
坏 时 目 动 切换 为 备用 机 的 系统 等 。 


“Dynamic” 有 时 还 可 能 会 被 理解 为 “自动 ”的 意思 。 确 实 ,， “Dynamic 
Routing Protocol” 能 够 自动 改写 路 由 信息 ，“Dynamic DNS?” 能 够 自动 配置 
IP 地 址 。 而 且 ，DHCP 的 首 字母 也 是 “Dynamic”， 所 以 想必 大 家 

对 “Dynamic” 这 个 词 都 有 个 大 致 印象。DSAS 也 将 尽 可 能 地 不 训 负 当初 
的 期 望 ， 努 力 做 到 名 副 其 实 。 


根据 流量 的 增加 智能 分 配 服务 占 资 源 古 个 很 有 趣 的 诬 题 ， 而 且 当 服务 器 
出 现 故 障 时 上 自动 搭建 其 他 服务 器 的 元 余 结构 也 不 是 说 不 可 能 实现 。 这 样 
想 厦 想 厦 ， 慢 慢 地 就 可 能 有 些 寞 想 天 开 了 。 但 古 不 要 总 说 这 不 可 能 ， 而 
是 要 认真 考虑 怎样 才能 实现 ， 即 使 是 半 开 玩笑 也 可 以 。 在 努力 思考 的 过 
程 中 就 会 产生 一 些 想法 ， 而 这 些 想 法 在 某 些 状况 下 很 可 能 就 会 发 挥 作 
用 。 虽 然 无 法 想象 未 来 会 如 何 及 展 ， 只 布 望 能 以 “不 断 优化 的 智能 系 
统 ” 为 目标 而 努力 进步 。 


看 完了 


如 采 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 有 编 
辑 或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨论 。 
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